P3D——《Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks》概述

最新推荐文章于 2024-08-18 10:24:54 发布

一只工程狮

最新推荐文章于 2024-08-18 10:24:54 发布

阅读量2.1k

点赞数

分类专栏： Computer Vision Paper

本文链接：https://blog.csdn.net/qq_40913465/article/details/106396574

版权

Computer Vision 同时被 2 个专栏收录

9 篇文章

订阅专栏

Paper

9 篇文章

订阅专栏

《Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks》概述

引言：

最近阅读了本篇发表在ICCV’17上的论文，本文主要的贡献在于提出来了新的网络结构P3D，以及对于P3D网络结构组合的探究，最近又在想是不是可以在3维立体的视频中，对物体的行为进行感知，这可以结合三维重建方面的工作来探索，希望有大佬阅读了这篇博客可以发表一下自己的看法，以下是对本篇论文的概述，由于受水平的限制，如有错误，欢迎留言指正。

一、主要贡献：

作者将3D卷积核 3x3x3 用空间域2D卷积 1x3x3 以及在时间域1D卷积 3x1x1 的联合表示，这样不仅能够减少模型的训练参数而且能够发挥在2DCNN上预训练的优势；
作者还研究了几种P3D的变体，以及如何组合形成一种结构多样性的最终的P3D网络架构，并与现有最先进的网络结果做对比研究。

二、结构具体细节：

2.1 在解决时间维度联系时，现有网络的问题：

第一种方法使用3D卷积的方法，这样能够很好的将时间和空间的关系联系起来以提取视频描述特征，但是这种方法存在一个弊端，就是需要训练的参数过于庞大；从而导致了很大的计算以及存储空间的代价；
第二种方法就是在2D Conv网络结构基础增加Pooling或者RNN的方法，由于这种方法不能够在一开始就结合时间维度的信息，因此它不能很好地提取视频的低层信息间的联系；

基于以上的问题，作者提出了P3D ResNet的网络结构，即在ResNet的基础上，作者将ResNet Units中的卷积成3D卷积，且这3D卷积是用空间卷积 1x3x3 和时间卷积 3x1x1 联合来近似代替3D卷积 3x3x3。

2.2 P3D Blocks 设计：

首先你要知道ResNet中的残差单元，作者就是在此基础上对残差单元进行了修改。作者在设计P3D Blocks时考虑到了两个问题:1）空间2D Filters以及时间1D Filters之间是够应该直接或者间接的相互影响；2）这两种Filters是够都应该直接的影响输出；基于这两个问题作者提出了3种P3D Blocks的设计，如下图所示：