Abstract
- 卷积神经网络(cnn)被认为是一类有效的图像识别模型。然而,当利用CNN学习时空视频表示时,这并非不平凡。一些研究表明,执行3D卷积是一种捕获视频中时空维度的有益方法。然而,从头开始开发非常深的3d cnn会导致昂贵的计算成本和内存需求。一个有效的问题是,为什么不为3D CNN回收现成的2D网络。在本文中,我们通过在空间域(相当于2D CNN)上模拟3×3×3卷积滤波器(相当于2D CNN)加上3×1×1卷积,在残差学习框架中设计了瓶颈构建块的多种变体。 及时在相邻要素地图上构建时间连接。此外,我们提出了一种新的架构,称为Pseudo-3D残差网(P3D ResNet),该架构利用了块的所有变体,但在ResNet的不同放置中组成了每个变体,遵循的理念是:随着深度的增加而增强结构的多样性可以提高神经网络处理能力。我们的P3D ResNet相对于3D CNN和基于帧的2D CNN分别对Sports-1M视频分类数据集实现了5.3%和1.8%的明显改进。 我们进一步检查了我们经过预训练的P3D ResNet在五个不同的基准和三个不同的任务下产生的视频表示的综合性能,这些性能表现出优于几种最新技术的性能。
Introduction
- 当今的数字内容本质上是多媒体:文本,音频,图像,视频等。 随着传感器丰富的移动设备的激增,图像和视频尤其成为Internet用户之间的一种新的通信方式。这鼓励了用于广泛的多媒体理解应用程序的高级技术的开发。 代表学习是使这些技术进步成功的基础。最近,卷积神经网络(CNN)的兴起令人信服地证明了学习视觉表示的高能力,尤其是在图像领域。例如,一组残留网络[7]在ImageNet测试集上达到3.57%的top-5误差,甚至低于报告的人类水平性能的5.1%。但是,视频是具有较大变化和复杂性的帧的时间序列,导致难以学习强大而通用的时空表示形式。
- 编码视频中的时空信息的一种自然方法是将CNN中的卷积核从2D扩展到3D并训练全新的3D CNN。这样,网络不仅可以访问每个视频帧中存在的视觉外观,还可以访问连续帧中的时间演变。尽管最近的研究报道了令人鼓舞的性能[8,31,33],但3D CNN的训练在计算上非常昂贵,并且与2D CNN相比,模型大小也呈二次增长。以广泛采用的11层3D CNN,即C3D [31]网络为例,模型大小达到321MB,甚至比152层2D ResNet(ResNet152)[7]的模型大小(235MB)大, 很难训练出非常深的3D CNN。更重要的是,与Sports-1M数据集中的帧直接对ResNet152进行微调[10]可能比从头开始对视频进行训练的C3D更好,如图1所示。产生时空视频表示的另一种替代解决方案是在帧的表示上利用池化策略或递归神经网络(RNN),通常是2D CNN的最后一个池化层或全连接层的激活。然而,这类方法仅在顶层的高层特征上建立时间连接,而将相关性保留在底层形式中,例如底层的角或边缘,未被充分利用。
- 我们在本文中证明,可以通过设计一系列利用空间和时间卷积滤波器的瓶颈构建块来减轻上述限制。具体来说,每个块中的关键部分是一个1×3×3卷积层和一层3×1×1卷积的组合,以并行或级联的方式代替了标准的3×3×3卷积层。这样,模型尺寸显着减小,并且通过在2D CNN中用3×3卷积初始化1×3×3卷积滤波器,还可以充分利用图像域中学习2D CNN的优势。此外,我们提出了一种新颖的伪3D残差网(P3D ResNet),该残差网在整个类似ResNet的体系结构中将每个设计的块放置在不同的位置,以增强网络的结构多样性。因此,我们的p3d resnet中的时间连接从下到上在每个层次上都被构建,学习到的视频表示封装了与视频中的对象、场景和动作相关的信息,使它们成为各种视频分析任务的通用。
- 这项工作的主要贡献是提出了一系列瓶颈构建块的建议,该瓶颈构建块以经济有效的方式模拟3D卷积。 这也导致了关于如何放置不同块以学习非常深的网络的优美观点,并提出了一种新的P3D ResNet用于视频表示学习。 通过一系列广泛的实验,我们证明了我们的P3D ResNet在五个不同的基准和三个不同的任务上均优于几种最新模型。
Related Work
- 我们将视频表示学习的方法