【飞桨PaddlePaddle论文复现营】【论文心得】Learning Spatio-Temporal Features with 3D Residual Networks for Action Recognition
论文解读
这篇论文是ICCV 2017上的workshop,主要提出了一种3D结构的ResNet网络用于视频分类任务,并且公布了Github源码,对于我这种初学小白可以说非常友好,推荐大家读完论文可以跑跑代码,加深理解。下面简单解读论文的主要内容:
正文
视频分类任务区别于一般的图像分类,视频数据在时空维度也具有一定的特征,传统的图像二维卷积只能提取单帧图像的特征,虽然结合双流CNN的思路可以进行一般的视屏动作特征提取,但是未能很好的提取视频中时空维度的特征信息,本文作者提出一种具有时空3D内核(3D CNN)的卷积神经网络,用于相对较深的神经网络结构——ResNet,可以直接从视频中提取时空特征,进行动作识别的能力。尽管模型的参数数量很大,但它比相对较浅的网络(如C3D)获得了更好的性能。
网络结构
在本文中,作者将在图像识别中优于初始结构的ResNet体系结构引入到3D CNN中,其结构如下图:
3D ResNet网络和原始ResNet网络的区别是卷积核和池化层的维数。 3D ResNet通过3D卷积层和3D池化层进行时空维度的特征提取。 卷积核的尺寸为3×3×3,卷积核conv1的时间步长为1,类似于C3D结构。 网络使用16帧RGB剪辑作为输入。 所以输入的图像大小为3 ×16×112×112。输入的下采样由conv3_1、conv4_1、conv5_1执行,当特征映射的数量增加时步长取2,作者采用零填充的