代码地址:https://github.com/ZhaofanQiu/pseudo-3d-residual-networks
主要贡献:以经济且有效的方式构建了仿3D卷积神经网络模型:P3D ResNet
出发点:3D 卷积神经网络能够同时学习到视频的时间和空间特征,但是存在所需内存大和计算成本高的问题,导致难以构建更深层的3D CNN,因此提出了用二维空间卷积和一维时间卷积来模拟3D卷积的想法,这种想法更经济,而且还将这种设计整合到一个深度残差学习框架中,能够很好地用于视频特征表达。
P3D Blocks
主要思想为将3D卷积核3X3X解耦为1X3X3和3X1X1的卷积核。这样不仅能够减少参数数量还能够利用预训练好的2D CNN,利用从图像中学习的场景和对象的知识使伪3D CNN性能更好。
P3D Blocks的灵感来源于ResNet,P3D Blocks用于代替ResNet的Residual Units。为了研究空间维度(S)上的2D卷积核和时域(T)上的1D卷积核并联还是串联效果好,设计了三种结构如上图所示。
P3D-A: