视频行为识别论文阅读[3]

这篇博客探讨了几篇关于视频行为识别的论文,包括TSN的改进、时序关系推理、I3D模型、3D卷积网络以及端到端的视频表示学习。论文涉及新数据集Kinetics、不同的融合策略、3D卷积结构和时序线性编码层,旨在提高动作识别的准确性和推理能力。
摘要由CSDN通过智能技术生成
[3]Deep Local Video Feature for Action Recognition[CVPR2017]

这篇文章是TSN网络的一种改进,其首先使用TSN提取局部特征,并探索了从网络的那一层提取特征比较合适,实验结果表明在最后一个卷积层提取特征具有更好的效果,作者认为有三个原因:(1)卷积层相对于全连接层有更少的参数,具有更少的过拟合风险(2)全连接层没有保存空间信息(3)后期的卷积层解码了更多的全局(空间)信息。
第二部分网络作者探索了集中不同的融合策略,例如,Mean,Max、Mean_std、BoW、FV、VLAD等方法,最终选择的是Max作为融合策略。相对于原始算法,大约具有1.3%的提升。

[4]Temporal Relational Reasoning in Videos[2017]

这篇文章给出了一种观点:认为人具有推理功能(即给出不连续的两帧图片,人能够猜测出中间发生了什么),而UCF101、SPort1M、THUMOS数据集以及依靠这些数据集的双流法和I3D等并不具备这种推理功能。这些数据集仅仅动作具有重复性,对时间的依赖性比较低。因此,作者使用了Something-Something,Jester,Charades三种数据集,首先确定固定的帧长度,然后对间隔采集两帧,间隔采样三帧,五帧进行训练测试,最后进行平均。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值