【论文复现PaddlePaddle】 # Learning Spatio-Temporal Features with 3D Residual Networks for Action Recognition(一)论文阅读
这篇文章是一篇2017ICCV ,该篇论文提出了一种基于2D ResNets 的3D ResNets网络结构。
卷积神经网络在动作识中有着较高的性能,基于CNN的动作识别的流行方法之一是二维卷积核的双流CNN,由RGB和叠加光流帧组成的双流体系结构来获取视频中的时空信息。另一种是使用3D卷积核提取视频中的时空特征。由于已有的C3D网络会产生大量参数,整个网络的体系结构相对较浅,对动作的识别还不够,于是作者就加入了ResNets网络。
尽管模型的参数依然很多,但是比相对较浅的网络(如 C3D)获得了更好的性能。
网络结构
论文中提出了一种3D ResNets 的网络结构。输入大小为3 × 16 × 112 × 112。每个卷积层后面都有批归一化和RELU。 下采样由conv3_1, conv4_1, conv5_1执行, 步长为2。最后一个完全连接层的维度被设置为Kinetics数据集(400个类别)