【论文阅读笔记】Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks

代码地址:https://github.com/ZhaofanQiu/pseudo-3d-residual-networks

主要贡献:以经济且有效的方式构建了仿3D卷积神经网络模型:P3D ResNet

出发点:3D 卷积神经网络能够同时学习到视频的时间和空间特征,但是存在所需内存大和计算成本高的问题,导致难以构建更深层的3D CNN,因此提出了用二维空间卷积和一维时间卷积来模拟3D卷积的想法,这种想法更经济,而且还将这种设计整合到一个深度残差学习框架中,能够很好地用于视频特征表达。

P3D Blocks

主要思想为将3D卷积核3X3X解耦为1X3X3和3X1X1的卷积核。这样不仅能够减少参数数量还能够利用预训练好的2D CNN,利用从图像中学习的场景和对象的知识使伪3D CNN性能更好。

P3D Blocks的灵感来源于ResNet,P3D Blocks用于代替ResNet的Residual Units。为了研究空间维度(S)上的2D卷积核和时域(T)上的1D卷积核并联还是串联效果好,设计了三种结构如上图所示。

P3D-A:

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值