【论文阅读笔记】Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks

本文介绍了Pseudo-3D Residual Networks(P3D ResNet),这是一种经济有效的3D CNN替代方案,用于视频特征学习。为解决3D CNN的内存消耗和计算成本问题,P3D ResNet采用2D空间卷积和1D时间卷积的组合。通过解耦3D卷积核,P3D ResNet减少了参数数量,并利用2D CNN的预训练知识提升性能。实验表明,P3D ResNet在行为识别、动作相似判断和场景识别等任务中表现出色。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

代码地址:https://github.com/ZhaofanQiu/pseudo-3d-residual-networks

主要贡献:以经济且有效的方式构建了仿3D卷积神经网络模型:P3D ResNet

出发点:3D 卷积神经网络能够同时学习到视频的时间和空间特征,但是存在所需内存大和计算成本高的问题,导致难以构建更深层的3D CNN,因此提出了用二维空间卷积和一维时间卷积来模拟3D卷积的想法,这种想法更经济,而且还将这种设计整合到一个深度残差学习框架中,能够很好地用于视频特征表达。

P3D Blocks

主要思想为将3D卷积核3X3X解耦为1X3X3和3X1X1的卷积核。这样不仅能够减少参数数量还能够利用预训练好的2D CNN,利用从图像中学习的场景和对象的知识使伪3D CNN性能更好。

P3D Blocks的灵感来源于ResNet,P3D Blocks用于代替ResNet的Residual Units。为了研究空间维度(S)上的2D卷积核和时域(T)上的1D卷积核并联还是串联效果好,设计了三种结构如上图所示。

P3D-A:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值