论文浏览(12) SmallBigNet: Integrating Core and Contextual Views for Video Classification


0. 前言

  • 相关资料:
  • 论文基本信息
    • 领域:视频分类
    • 作者单位:商汤&中国科学院深圳先进技术研究院
    • 发表时间:2020.6
    • CVPR 2020

1. 要解决什么问题

  • 直接使用3x3x3的3D卷积可能会导致参数过多、运算量较大、难以训练等诸多问题,所以一般会分解为 1x3x3 的 spatial convolution 以及 3x1x1 的 temporal convolution。
  • 使用3D卷积提取视频特征的时候,spatio-temporal contexts 很可能处于一个Limitted view(受限的范围)内。
    • 下图(High jump动作)就是 temporal convolution 常见的一种 Limited view 情况。
    • 大概意思是在t-1或t+1时同一个位置的信息可能会妨碍对t时刻本身动作的分类。
    • image_1ec1glc3c1t3am4eqlg3vtagg9.png-89kB

2. 用了什么方法

  • 提出了SmallBig Unit
    • 基本思想就是在SmallBig Unit中分类Small/Big两路,结构如下图所示。
    • Small:普通的1x1x1卷积
    • Big:3x3x3 max pooling + 1x1x1卷积。
      • 3D max pooling 可以用来选择最合适的上下文信息,从而解决开头提到的问题……
    • 上面两条分支的 1x1x1 卷积是共享参数的。
    • image_1ec1hk9lecio1hj41qpu11d54gcm.png-243.8kB
  • 从公式角度理解SmallBig Unit。
    • 普通的Temporal Convolution的形式:
      • x代表输入,y代表输出,t代表时刻,(h, w)代表在特征图中的位置, Θ \Theta Θ 表示卷积操作的参数。
      • image_1ec1j4g931nr1n8fnmaugb136e13.png-13.3kB
    • SmallBig Unit
      • small view 就是普通的1x1x1卷积,big view是先3x3x3 max pooling + 1x1x1 卷积。
      • 两个 1x1x1 卷积是共享参数的。
      • image_1ec1jgepi1psi1ak2lfu1n3qtk21g.png-16.9kB
  • SmallBig Block
    • a是普通2D block,即在temporal dimension上没有做什么操作,对应卷积核都是1。
    • b是普通3D block,在non-local中使用,将3x3x3转换为3x1x1 + 1x3x3,其他就是普通resnet block。
    • c-e是带有 SmallBig Unit 的Block。
      • e中的T一般就是输入的帧的数量。
      • e中要这么做的原因是,在通过 前几部卷积后,空间(spatial)上的感受野很大,所以时间上(temporal)也要同样增加,就通过e中Tx1x1的结构来增加。
      • f在e的基础上增加了一个small big block,说是把新增的这个当做是attention。
    • image_1ec1k292e2om1klk2mij1k1uah1t.png-119.7kB
  • SmallBig-ResNet
    • image_1ec1kd506ghc1b2sidshhic1i2a.png-81.2kB
  • SmallBig的功能与Non-local类似。

3. 效果如何

  • 在Kinetics-400上做了一大堆实验:
    • 说明了smallbig提高了多少点,在那些stage上使用smallbig,smallbig中max pooling的尺寸,是否共享参数,在backbone为resnet-23的时候甚至超过普通的backbone为resnet-50的情况
    • image_1ec1ku3v41j6b1in415t1ro71pls2n.png-245kB

4. 还存在什么问题

  • 代码尚未开源,等待大佬。

  • 看起来是用来提到Non-local的,对比了GFlops,但没提inference time,需要自己再尝试一下。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值