[3]Deep Local Video Feature for Action Recognition[CVPR2017]
这篇文章是TSN网络的一种改进,其首先使用TSN提取局部特征,并探索了从网络的那一层提取特征比较合适,实验结果表明在最后一个卷积层提取特征具有更好的效果,作者认为有三个原因:(1)卷积层相对于全连接层有更少的参数,具有更少的过拟合风险(2)全连接层没有保存空间信息(3)后期的卷积层解码了更多的全局(空间)信息。
第二部分网络作者探索了集中不同的融合策略,例如,Mean,Max、Mean_std、BoW、FV、VLAD等方法,最终选择的是Max作为融合策略。相对于原始算法,大约具有1.3%的提升。
[4]Temporal Relational Reasoning in Videos[2017]
这篇文章给出了一种观点:认为人具有推理功能(即给出不连续的两帧图片,人能够猜测出中间发生了什么),而UCF101、SPort1M、THUMOS数据集以及依靠这些数据集的双流法和I3D等并不具备这种推理功能。这些数据集仅仅动作具有重复性,对时间的依赖性比较低。因此,作者使用了Something-Something,Jester,Charades三种数据集,首先确定固定的帧长度,然后对间隔采集两帧,间隔采样三帧,五帧进行训练测试,最后进行平均。