论文浏览(29) Temporal Interlacing Network

最新推荐文章于 2022-08-08 22:55:24 发布

清欢守护者

最新推荐文章于 2022-08-08 22:55:24 发布

阅读量750

点赞数

分类专栏： CV

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/irving512/article/details/107625760

版权

CV 专栏收录该内容

98 篇文章 21 订阅

订阅专栏

文章目录

0. 前言

相关资料：
论文基本信息
- 领域：行为识别
- 作者单位：清华&商汤&港中文
- 发表时间：AAAI 2020

1. 要解决什么问题

3D卷积提取特征时，参数与计算量太大了。
一个很朴素的想法：能否将时间时间信息融入空间信息中，从而同时学习两类信息。

2. 用了什么方法

提出了 Temporal Interlacing Network 结构
- 理解：TSM的扩展。
  - TSM中，shift操作的offset是固定的。
  - TIN中，shift操作的方向以及offset是要学习的。
- 位置：一般将TIN/TSM模块放在普通resnet若干block非skip分支的conv1之前。
- 一点细节：
  - 进行shift操作的是在channel维度上。
  - TIN中，3/4的channel是不变化的，剩下的1/4分成四份，分别单独计算shift的参数。
TIN结构
- 从下图中可以看到TIN结构的位置以及基本组成。
TIN的实现可以参考源码
- TIN 由 OffsetNet, WeightNet, Differentiable Frame Sampling 三个部分组成。
- OffsetNet：预测出两组offset的数值（一共四组，两组预测，剩下两组用前两组的相反值，这样特征融合效果更好）
- WeightNet：预测时间维度的权重。注意力机制。
- Differentiable Frame Sampling 是重点，如下图所示
  - 有些offset的值不是整数，那就用类似于双线性插值的方法来获取特征值。
  - 细节没细看，想来源码里都比较仔细了，要了解详细的直接看源码就好。

3. 效果如何

Something-Something-V1 的结果最全，有参数以及计算量的比较。
其他数据集上的一些结果
更形象的比较结果

4. 还存在什么问题&有什么可借鉴

配图，感觉跟TSM的配色都一样。
这SHIFT操作，十有八九是自定义op（即pytorch中没有对应的op，需要自己写cuda代码），所以不能用于TVM等推理优化工具。

清欢守护者

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。