论文笔记:3D Residual Networks for Action Recognition(飞浆复现)
文章目录
1、 Abstract
具有时空三维核的卷积神经网络(3D CNNs)能够直接从视频中提取时空特征进行动作别。虽然由于3D内核的参数太多,存在着过度拟合的问题,但是利用最近巨大的视频数据库,3D cnn得到了极大的改进。然而,相对于基于2d的深度神经网络,如残差网络(ResNets)的成功,3D神经网络的架构相对较浅。在这篇文章中,我们提出了一个基于ResNets的3D CNNs以更好的动作表示。
2、Introduction
现实世界信息的一种重要类型是人类行为。自动识别和检测视频中的人的行为在监控系统、视频索引和人机交互等应用中得到了广泛的应用。
在本文中,我们实验评估三维ResNets以获得良好的模型的动作识别。换句话说,我们目标是生成一个标准的时空识别预训练模型。我们只是从基于2d的扩展再看3D版。我们对网络进行培训ActivityNet和Kinetics数据集,并评估他们的识别性能。
3、Related Work
2.1.、Action Recognition Database
HMDB51[13]和UCF101是动作识别中最成功的数据库。然而,最近的共识表明,这两个数据库都不是大型数据库。使用这些数据库很难训练出好的模型而不进行过拟合。最近,像Sports-1M和YouTube-8M[1]这样的大型数据库也被提出。这些数据库足够大,而它们的注释是嘈杂的,而且仅是视频级别的标签(包括与目标活动不相关的框架)。
2.2、 Action Recognition Approach
基于网络神经网络的动作识别的常用方法之一是具有二维卷积核的两流网络神经网络。
Simonyan等人提出的方法分别使用RGB和堆叠光流帧作为外观信息和运动信息。他们发现,将两种流相结合可以提高动作识别的准确性。许多基于双流cnn的方法被提出来提高动作识别性能。Feichtenhofer等人提出将两流cnn与ResNets[6]相结合。
快捷连接绕过信号块的顶部到尾部。信号在尾部求和如下图:
)
3、3D Residual Networks
3.1、Network Architecture
我们的网络是基于ResNets[7]。ResNets引入了捷径连接,绕过信号从一层到下一层。这些连接通过网络的梯度流从较晚的层到较早的层,从而简化了对深度很深的网络的训练。图1显示了残余块,它是ResNets的一个元素。连接绕过信号从块的顶部到尾部。ResNets是由多个剩余块组成的。
)
4、Experiments
)
)
)
5、Conclusion
探讨了具有三维卷积核的ResNets的有效性。我们用。训练3D ResNets动力学数据集,这是一个大型视频数据集。经过动力学训练的模型虽然参数较多,但表现良好,不存在过拟合现象。