论文浏览(29) Temporal Interlacing Network


0. 前言


1. 要解决什么问题

  • 3D卷积提取特征时,参数与计算量太大了。
  • 一个很朴素的想法:能否将时间时间信息融入空间信息中,从而同时学习两类信息。

2. 用了什么方法

  • 提出了 Temporal Interlacing Network 结构
    • 理解:TSM的扩展。
      • TSM中,shift操作的offset是固定的。
      • TIN中,shift操作的方向以及offset是要学习的。
    • 位置:一般将TIN/TSM模块放在普通resnet若干block非skip分支的conv1之前。
    • 一点细节:
      • 进行shift操作的是在channel维度上。
      • TIN中,3/4的channel是不变化的,剩下的1/4分成四份,分别单独计算shift的参数。
  • TIN结构
    • 从下图中可以看到TIN结构的位置以及基本组成。
    • image_1ee8g24m4pbj10of1j6863cflv1g.png-96.8kB
  • TIN的实现可以参考源码
    • TIN 由 OffsetNet, WeightNet, Differentiable Frame Sampling 三个部分组成。
    • OffsetNet:预测出两组offset的数值(一共四组,两组预测,剩下两组用前两组的相反值,这样特征融合效果更好)
    • WeightNet:预测时间维度的权重。注意力机制。
    • Differentiable Frame Sampling 是重点,如下图所示
      • 有些offset的值不是整数,那就用类似于双线性插值的方法来获取特征值。
      • 细节没细看,想来源码里都比较仔细了,要了解详细的直接看源码就好。
      • image_1ee8gituu1n131da01p3t1l0017a91t.png-102.6kB

3. 效果如何

  • Something-Something-V1 的结果最全,有参数以及计算量的比较。
    • image_1ee8cie7bun0uke17mi1ivig0q9.png-115.6kB
  • 其他数据集上的一些结果
    • image_1ee8cus88td9ic55c51cavv9bm.png-69kB
  • 更形象的比较结果
    • image_1ee8cvs7s1765lirelte4k3f13.png-94.9kB

4. 还存在什么问题&有什么可借鉴

  • 配图,感觉跟TSM的配色都一样。

  • 这SHIFT操作,十有八九是自定义op(即pytorch中没有对应的op,需要自己写cuda代码),所以不能用于TVM等推理优化工具。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值