视频特征提取:C3D/Learning Spatiotemporal Features with 3D Convolutional Networks
总结3D conv在之前并没有广为盛行于视频处理领域。作者认为,相比会丢失时间信息的2D conv,3D conv非常适合时空特征学习(即针对视频),下图是2D conv和3D conv的区别。作者使用基于3x3x3的3D conv的带有全连接层的深度卷积神经网络对视频进行特征提取,同时验证了3x3x3的3D conv性能相对其他大小的3D conv更优秀。并且,训练好的C3D可以作为优秀的特征提取器,能够提取输入视频的特征,用作在其他任务上。作者认为,一个优秀的视频描述符应该有四个指标:通用
原创
2020-08-13 11:59:31 ·
3421 阅读 ·
0 评论