P3D——《Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks》概述

《Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks》概述



引言:

最近阅读了本篇发表在ICCV’17上的论文,本文主要的贡献在于提出来了新的网络结构P3D,以及对于P3D网络结构组合的探究,最近又在想是不是可以在3维立体的视频中,对物体的行为进行感知,这可以结合三维重建方面的工作来探索,希望有大佬阅读了这篇博客可以发表一下自己的看法,以下是对本篇论文的概述,由于受水平的限制,如有错误,欢迎留言指正。

一、主要贡献:

  1. 作者将3D卷积核 3x3x3 用空间域2D卷积 1x3x3 以及在时间域1D卷积 3x1x1 的联合表示,这样不仅能够减少模型的训练参数而且能够发挥在2DCNN上预训练的优势;
  2. 作者还研究了几种P3D的变体,以及如何组合形成一种结构多样性的最终的P3D网络架构,并与现有最先进的网络结果做对比研究。

二、结构具体细节:

2.1 在解决时间维度联系时,现有网络的问题:

  1. 第一种方法使用3D卷积的方法,这样能够很好的将时间和空间的关系联系起来以提取视频描述特征,但是这种方法存在一个弊端,就是需要训练的参数过于庞大;从而导致了很大的计算以及存储空间的代价;
  2. 第二种方法就是在2D Conv网络结构基础增加Pooling或者RNN的方法,由于这种方法不能够在一开始就结合时间维度的信息,因此它不能很好地提取视频的低层信息间的联系;

基于以上的问题,作者提出了P3D ResNet的网络结构,即在ResNet的基础上,作者将ResNet Units中的卷积成3D卷积,且这3D卷积是用空间卷积 1x3x3 和时间卷积 3x1x1 联合来近似代替3D卷积 3x3x3。

2.2 P3D Blocks 设计:

首先你要知道ResNet中的残差单元,作者就是在此基础上对残差单元进行了修改。作者在设计P3D Blocks时考虑到了两个问题:1)空间2D Filters以及时间1D Filters之间是够应该直接或者间接的相互影响;2)这两种Filters是够都应该直接的影响输出;基于这两个问题作者提出了3种P3D Blocks的设计,如下图所示:

  • P3D-A:
    第一种设计通过使时间一维滤波器(T)以级联方式跟随空间二维滤波器(S)来考虑堆叠结构。因此,这两种滤波器可以在同一条路径上直接相互影响,并且只有时间一维滤波器直接连接到最终输出,如公式(1)表示(其中 x t x_t xt为输入, x t + 1 输 出 x_{t+1}输出 xt+1):

( I + T ⋅ S ) ⋅ x t : = x t + T ( S ( x t ) ) = x t + 1 (1) (I+T \cdot S) \cdot x_t := x_t + T(S(x_t)) = x_{t+1} \tag{1} (I+TS)xt:=xt+T(S(xt))=xt+1(1)

  • P3D-B:
    第二种设计与第一种设计类似,只是采用了两个滤波器之间的间接影响,并且两个滤波器并联在不同的路径上。虽然S和T之间没有直接的影响,但它们都直接影响了最终的输出,如公式(2)表示:

( I + S + T ) ⋅ x t : = x t + S ( x t ) + T ( x t ) = x t + 1 (2) (I+S+T) \cdot x_t := x_t +S(x_t)+ T(x_t) = x_{t+1} \tag{2} (I+S+T)xt:=xt+S(xt)+T(xt)=xt+1(2)

  • P3D-C:
    最后一种设计是P3D-A和P3D-B之间的折中,通过同时建立S、T以及最终输出之间的直接影响。具体地说,为了实现基于级联P3D-A架构的S和最终输出之间的直接连接,我们建立了从S到最终输出的Shortcut,如公式(3)表示:

( I + S + T ⋅ S ) ⋅ x t : = x t + S ( x t ) + T ( S ( x t ) ) = x t + 1 (3) (I+S+T \cdot S) \cdot x_t := x_t +S(x_t)+ T(S(x_t)) = x_{t+1} \tag{3} (I+S+TS)xt:=xt+S(xt)+T(S(xt))=xt+1(3)

2.3 Bottleneck 结构:

如果你之前了解过1X1卷积的应用以及ResNet,你可能就明白了为什么要用Bottlenck,类似于在Inception中的应用,在P3D中作者用1X1X1的卷积来降维以及恢复维度,以此来降低计算复杂度,具体的结构示意图如下图所示:

2.4 Pseudo-3D ResNet:

作者通过一系列对于P3D变体的比较,最终确定了P3D ResNet的网络结构是以ResNet-50为基础并混合以上3种变体作为residual units,以此来增加网络结构的多样性,这样的结构最终的表现结果最好,其中变体的结构顺序使用如下图所示:



之后的论文就是描述P3D在三种任务上的表现以及实验对比和可视化表示的一些东西,如果对此感兴趣可以阅读原文

  • 0
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值