C3D---3D卷积提取视频的时空特征

最新推荐文章于 2025-03-07 09:55:59 发布

AIM086

最新推荐文章于 2025-03-07 09:55:59 发布

阅读量1.4k

点赞数 30

分类专栏：论文阅读文章标签：卷积神经网络人工智能深度学习视频

本文链接：https://blog.csdn.net/qq_43538018/article/details/143925776

版权

论文阅读专栏收录该内容

4 篇文章

订阅专栏

随着多媒体内容的爆炸式增长，视频分析的重要性日益凸显。传统的2D图像处理技术虽然在空间特征提取方面表现出色，但在处理时间连续性方面却显得力不从心。来自Facebook AI Research和达特茅斯学院的研究团队提出了使用 3D卷积网络（3D ConvNets）来学习视频的时空特征，这一创新方法在多个视频分析基准测试中展现了优越的性能。

3D卷积与池化

3D卷积网络的关键特点在于能够同时捕捉空间和时间的信息，与传统的2D卷积有显著不同。

原理：在视频处理中，一个 $3\times3\times3$ 的三维卷积核被应用于 $h \times w \times t$ 大小的视频数据块（三维体）。在卷积操作中，卷积核覆盖的每个 $3\times3\times3$ 的立方体区域内的 27 个像素值与卷积核的27 个权重相乘后求和，生成对应的新特征图中的单个像素值。随后，卷积核按照设定的步长在视频数据的高度、宽度和时间轴上滑动，重复上述操作。与2D卷积核不同，它只在图像的高度和宽度方向上滑动，3D卷积核还需在时间轴方向上进行滑动，从而有效捕捉视频内容随时间的变化，进一步丰富了模型的时空表征能力，能够更有效地捕捉运动和动态特征。

2D卷积的局限性：

2D卷积处理的是单帧的空间信息，输出的仍然是单帧图像。
即使将多帧作为输入（例如将帧叠加成多个通道），2D卷积在第一层卷积后会丢失时间维度信息。

3D卷积的优势：

3D卷积在空间和时间三个维度上操作，输出的是一个包含时序信息的体积。
3D池化与3D卷积配合，能够在整个网络中保留时间维度信息，而非仅限于初始层。

探索卷积核的时间深度

文章通过实验探索了不同时间深度卷积核对3D卷积神经网络性能的影响。

先说结论：使用 $3 \times 3 \times 3$ 卷积核的小感受野架构效果最好。

实验前提：输入视频被处理为大小为 $3 \times 16 \times 128 \times 171$ （通道数、帧数、高度和宽度）的片段，网络由5层卷积层（每层后接池化层）组成，空间卷积核大小固定为 $3 \times 3$ ，时间深度分别设置为1、3、5和7。

实验设计：实验设计了两种架构：均匀深度（如仅depth-1 或仅depth-3）和层间变化深度（如从depth-3到depth-7递增或从depth-7到depth-3递减）。实验结果显示，depth-3 的准确率最高，depth-1（相当于2D卷积）表现最差，原因在于无法有效建模时间信息。最终得出结论：采用小感受野的 $3 \times 3 \times 3$ 卷积核能够最好地捕捉时空特征。

C3D

通过探索卷积核的时间深度和网络架构设计，作者提出了一种标准化的3D ConvNet架构（命名为 C3D），能够有效捕捉视频的时空特征。

C3D网络包括了 8层卷积、5层最大池化和2个全连接层，最后是softmax输出层。卷积核大小固定为 $3 \times 3 \times 3$ ，步幅为1，每个框中都标明了卷积核的数量。除了第一个池化核是 $1 \times 2 \times 2$ 之外（第一层池化在时间维度为 1），其他池化核大小为 $2 \times 2 \times 2$ 。

为训练C3D网络，作者使用了包含110万段视频的 Sports-1M数据集，并采用数据增强方法对输入数据进行随机裁剪和水平翻转，生成大小为 $16 \times 112 \times 112$ 的子片段。优化过程中，使用随机梯度下降（SGD），初始学习率为0.003，每15万次迭代减半，从而使模型能够高效捕获视频的时空特征。