【论文阅读笔记】Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks

最新推荐文章于 2024-05-24 10:01:53 发布

哈士奇的布偶

最新推荐文章于 2024-05-24 10:01:53 发布

阅读量2.4k

点赞数

分类专栏：论文阅读笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bpp94_github/article/details/83092562

版权

本文介绍了Pseudo-3D Residual Networks（P3D ResNet），这是一种经济有效的3D CNN替代方案，用于视频特征学习。为解决3D CNN的内存消耗和计算成本问题，P3D ResNet采用2D空间卷积和1D时间卷积的组合。通过解耦3D卷积核，P3D ResNet减少了参数数量，并利用2D CNN的预训练知识提升性能。实验表明，P3D ResNet在行为识别、动作相似判断和场景识别等任务中表现出色。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

代码地址：https://github.com/ZhaofanQiu/pseudo-3d-residual-networks

主要贡献：以经济且有效的方式构建了仿3D卷积神经网络模型：P3D ResNet

出发点：3D 卷积神经网络能够同时学习到视频的时间和空间特征，但是存在所需内存大和计算成本高的问题，导致难以构建更深层的3D CNN，因此提出了用二维空间卷积和一维时间卷积来模拟3D卷积的想法，这种想法更经济，而且还将这种设计整合到一个深度残差学习框架中，能够很好地用于视频特征表达。

P3D Blocks

主要思想为将3D卷积核3X3X解耦为1X3X3和3X1X1的卷积核。这样不仅能够减少参数数量还能够利用预训练好的2D CNN，利用从图像中学习的场景和对象的知识使伪3D CNN性能更好。

P3D Blocks的灵感来源于ResNet，P3D Blocks用于代替ResNet的Residual Units。为了研究空间维度（S）上的2D卷积核和时域（T）上的1D卷积核并联还是串联效果好，设计了三种结构如上图所示。

P3D-A：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。