总结
3D conv在之前并没有广为盛行于视频处理领域。作者认为,相比会丢失时间信息的2D conv,3D conv非常适合时空特征学习(即针对视频),下图是2D conv和3D conv的区别。
作者使用基于3x3x3的3D conv的带有全连接层的深度卷积神经网络对视频进行特征提取,同时验证了3x3x3的3D conv性能相对其他大小的3D conv更优秀。
并且,训练好的C3D可以作为优秀的特征提取器,能够提取输入视频的特征,用作在其他任务上。
作者认为,一个优秀的视频描述符应该有四个指标:
- 通用性(generic)
- 紧凑型(compact)
- 高效率(efficient)
- 易实施(simple)
作者认为本文C3D网络提取的特征能够达到以上四个指标,拥有良好的性能。
Methods
由于没有3D conv方面的先验知识,作者借用了3x3 conv在2D conv上的成功的先验知识,首先就选择3x3x3卷积进行实验。
NOTE THAT:视频用c*l*h*w
表示,c为通道,l为帧长度(时序),hw为帧尺寸