视频特征提取:C3D/Learning Spatiotemporal Features with 3D Convolutional Networks

总结

3D conv在之前并没有广为盛行于视频处理领域。作者认为,相比会丢失时间信息的2D conv,3D conv非常适合时空特征学习(即针对视频),下图是2D conv和3D conv的区别。
在这里插入图片描述

作者使用基于3x3x3的3D conv的带有全连接层的深度卷积神经网络对视频进行特征提取,同时验证了3x3x3的3D conv性能相对其他大小的3D conv更优秀。

并且,训练好的C3D可以作为优秀的特征提取器,能够提取输入视频的特征,用作在其他任务上。

作者认为,一个优秀的视频描述符应该有四个指标:

  • 通用性(generic)
  • 紧凑型(compact)
  • 高效率(efficient)
  • 易实施(simple)

作者认为本文C3D网络提取的特征能够达到以上四个指标,拥有良好的性能。

Methods

由于没有3D conv方面的先验知识,作者借用了3x3 conv在2D conv上的成功的先验知识,首先就选择3x3x3卷积进行实验。
NOTE THAT:视频用c*l*h*w表示,c为通道,l为帧长度(时序),hw为帧尺寸

  • 4
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值