Pseudo-3D Residual Networks 算法笔记

最新推荐文章于 2024-08-08 07:02:12 发布

AI之路

最新推荐文章于 2024-08-08 07:02:12 发布

阅读量1.7w

点赞数 9

分类专栏：深度学习计算机视觉视频分类/理解/分析文章标签：深度学习

本文链接：https://blog.csdn.net/u014380165/article/details/78986416

版权

Pseudo-3D Residual Networks（P3D ResNet）是ICCV2017提出的一种优化3D卷积的方法，用于视频分类。通过1*3*3和3*1*1卷积代替3*3*3卷积，降低计算成本，提高速度，同时在Sports-1M和UCF101数据集上表现出优于传统3D卷积网络和ResNet的性能。P3D ResNet通过不同结构的组合实现性能提升，其速度和准确率的平衡使其成为视频理解领域的有效解决方案。

摘要由CSDN通过智能技术生成

论文：Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks
论文链接：http://openaccess.thecvf.com/content_ICCV_2017/papers/Qiu_Learning_Spatio-Temporal_Representation_ICCV_2017_paper.pdf
官方代码：https://github.com/ZhaofanQiu/pseudo-3d-residual-networks
第三方代码：https://github.com/qijiezhao/pseudo-3d-pytorch

ICCV2017的文章。在视频分类或理解领域，容易从图像领域的2D卷积联想到用3D卷积来做，虽然用3D卷积进行特征提取可以同时考虑到spatial和temporal维度的特征，但是计算成本和模型存储都太大，因此这篇文章针对视频领域中采用的3D卷积进行改造，提出Pseudo-3D Residual Net (P3D ResNet)，思想有点像当年的Inception v3中用1*3和3*1的卷积叠加代替原来的3*3卷积，这篇文章是用1*3*3卷积和3*1*1卷积代替3*3*3卷积（前者用来获取spatial维度的特征，实际上和2D的卷积没什么差别；后者用来获取temporal维度的特征，因为倒数第三维是帧的数量），毕竟这样做可以大大减少计算量，而如果采用3D卷积来做的话，速度和存储正是瓶颈，这也使得像C3D算法的网络深度只有11层，参看Figure1。该文章的网络结构可以直接在3D的ResNet网络上修改得到。顺便提一下，除了采用3D卷积来提取temporal特征外，还可以采用LSTM来提取，这也是当前视频研究的一个方向。

Figure1是几个模型在层数、模型大小和在Sports-1M数据集上的视频分类效果对比，其中的P3D ResNet是在ResNet 152基础上修改得到的，深度之所以不是152，是因为改造后的每个residual结构不是原来ResNet系列的3个卷积层，而是3或4个卷积层，详细可以看Figure3，所以最后网络深度是199层。官方github代码中的网络就是199层的。ResNet 152是直接在Sports-1M数据集上fine tune得到的。可以看出199层的P3D ResNet虽然在模型大小上比ResNet-152（此处ResNet-152是在sports-1M数据集上fine tune得到的）大一些，但是准确率提升比较明显，与C3D（此处C3D是直接在sports-1M数据集上从头开始训练得到的）的对比在效果和模型大小上都有较大改进，除此之外，速度的提升也是亮点，后面有详细的速度对比。
这里写图片描述