Abstract:
Deep convolutional networks 对图像处理有很好的识别效果,但对视频中的动作识别,传统方法中的优势并没有体现出来。
Paper的目标:1.discover the principles to design effective ConvNet architectures for action recognition in videos
2. learn these models given limited training samples.
Contribution: 1.TSN(一种 一种新型的基于视频的行为识别的网络结构。它将稀疏时间采样策略和基于视频的监督相结合,使用整个视频支持有效的学习)
2.利用TSN网络结构学习卷积神经网络在视频数据方面的处理。
Result:在数据集HMDB51 (69.4%) and UCF101 (94.2%) 达到了最先进的效果
Introduction
动作识别的重要且互补的两个方面:1.appearance 2.dynamic
一个识别系统的识别率很大一部分取决于能否提取和利用有关的信息。然而,由于很多复杂的因素(如观察点的变化,相机的移动)导致提取这些信息变得十分的non-trival.
所以在保证提取正确信息情况下,设计有效的representation来应对这些复杂因素变的十分重要。
深度卷积神经网络在拥有大量数据集的视觉数据的识别上有着出色的建模和识别能力。然而,和图像分类不同的是,在基于视频的动作识别中,深度卷积神经网络与传统的手动设计特征并没有很大的优势。
在我们的观点中,卷积神经网络运用到基于视频的动作识别主要有两个障碍:
1.在动作识别中远距离的时间结构对理解动态这个特性十分重要,然而主流的神经网络结构对appearance和短时的运动比较关注。因此缺少识别长时动作的能力。最近的方法大部分依赖于密集时间抽样的样本(有着事先定义好的时间间隔),这对将它们运用到实际应用中极为不利。
2.在实践中,我们需要用大量的样本来训练深度卷积神经网络。在实际中动作识别数据集在大小和多样性上都十分有限(很可能会导致过拟合)