三维卷积解读及其pytorch实现

原论文:Learning Spatiotemporal Features with 3D Convolutional Networks(ICCV 2015)

文章贡献点

  • 实验表明三维卷积深度神经网络是一种能够同时模拟外观和运动的良好的特征学习器。
  • 发现3x3x3在探索的架构中效果最好。
  • 在4个不同的任务和6个不同的基准上,这个模型所学习的特征优于或接近目前的最好的方法。

探索过程

注释:根据二维卷积的研究结果,感受野较小且结构更深的3x3卷积核能产生最好的结果。这里固定了空间感受野为3x3,只改变三维卷积核的时间深度。

视频表示:c x l x h x w,其中c是通道的数量,l是视频帧数长度,h和w分别是帧的高度和宽度。

结构
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

  • 2D convolution一般用在单通道的数据上,灰度图片
  • 2D convolution on multiple frames:一般用在多通道的数据上,彩色图片
  • 3D convolution:使用场景一般是多帧(单/多通道)的数据,输出也是多帧,依次对连续k帧的整个通道同时执行卷积操作。(3D卷积在执行时不仅在各自的通道中共享卷积核,而且在连续k帧之间也共享卷积核)

在这里插入图片描述
在这里插入图片描述

参考链接

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值