论文阅读:Two-Stream Convolutional Networks for Action Recognition in Videos

论文名字

Two-Stream Convolutional Networks for Action Recognition in Videos

来源

会议

年份

2014.11.12

作者

Karen Simonyan  Andrew Zisserman

核心点

提出一个包含空间和时间网络的双流ConvNet框架来做video action的分类

阅读日期

2020.10.28

影响因子

 

内容总结

文章主要解决的问题及解决方案:

        解决视频中的显著性特征提取问题。

 

文章的主要工作:

        三个贡献,一,提出一个包含空间和时间网络的双流ConvNet框架;二,证明了在多帧密集光流上训练ConvNet能够在训练数据有限的情况下获得非常好的性能;三,证明了应用于两个不同的动作分类数据集的多任务学习可以用来增加训练数据量和提高两者的性能。

 

文章内容:

        第一个Spatial stream ConvNet是由静态的图像作为输入的,该网络是一个分类网络,用于识别行为。第二个Temporal stream ConvNet是需要输入多帧光流(multi-frame optical flow),光流是从视频中提取的特征信息。

光流(optical flow)的获取:

        光流是由一些位移矢量场(displacement vector fields)组成。用dt表示一个向量,dt表示第t帧的displacement vector,是通过第t和第t+1帧图像获得的dt包含水平部分dtx(图d)和竖直部分的dty(图e)。因此如果一个video有L帧,那么一共可以得到2L个channel的optical flow,然后才能作为Figure1中temporal stream convnet网络的输入。(a)和(b)表示连续的两帧图像,(c)表示一个optical flow。

假设视频的宽和高分别是w和h,那么temporal stream convnet的输入维度应该是下面这样的。其中τ表示任意的一帧。

                                                                                      

       文章主要介绍了两种Iτ的计算方式,分别命名为optical flow stacking(光流叠加)和trajectory stacking(轨迹叠加),这二者都可以作为前面temporal stream convnet网络的输入。

多任务训练(Multi-task learning):

        空间流ConvNet可以在大型静止图像分类数据集(如:ImageNet)上进行预训练。而时间流需要在视频数据上进行训练,但目前能用的视频数据集规模比较小(主要指的是UCF-101和HMDB-51两个数据集,训练集数量分别是9.5k和3.7k个视频)。为了减少过拟合,作者提出多任务训练,组合多个数据集的方法。原来网络(temporal stream ConvNet)在全连接层后只有一个softmax层,现将其改为两个softmax分类层,一个用于计算HDMB-51数据集的分类输出,另一个用于计算UCF-101数据集的分类输出,两支路都有自己的损失函数,总体训练的损失被计算为单个任务损失的总和。

训练:

        空间训练网络:从每个训练视频中随机选择一个单独的帧,从选择的帧中随机裁剪出224x224的子图像,再经历随机水平翻转和RGB抖动,需要注意的是子图像是从整个帧中采采样的,而不仅仅是其256x256的中心。时间训练网络:为选定的训练帧计算光流体积,从该卷中,固定大小的244x244x2L输入被随机裁剪和翻转。

训练机制:最初学习速率设置为10-2次方,在50k迭代后变为10-3次方,在70k迭代后变为10-4,在80k迭代后停止训练。微调时,速率在14k迭代后变为10-3,20k迭代后停止训练。

在ImageNet ILSVRC-2012中做预训练。训练空间网络时,使用与上述相同的训练和测试数据增强(裁剪、翻转、RGB抖动)。

使用多GPU训练,4张NVIDIA Titan,比单张GPU训练快3.2倍。

实验结果分析:

        在Spatial ConvNet中,使用预训练加微调(所有层)的效果是最理想的(Dropout ratio为0.9);在Temporal ConvNet中,使用堆叠光流(optical flow stacking),L=10,平均位移减法,以及使用双向的光流,效果是最理想的。对比表1中(a)(b)两表,可以看出temporal ConvNet性能优于Spatial ConvNet。

        表2中证明多任务训练的性能优势。

        表3证明①时间和空间识别流是互补的②基于SVM的softmax分数融合优于平均融合③使用双向流对ConvNet融合不利④使用多任务学习训练的时间网络比单独使用和与空间网络融合时变现最佳。

        表4是与当时先进的模型的性能对比。

 

实验结果:

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三金samkam

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值