论文浏览(50) RubiksNet: Learnable 3D-Shift for Efficient Video Action Recognition

最新推荐文章于 2022-09-03 20:50:26 发布

清欢守护者

最新推荐文章于 2022-09-03 20:50:26 发布

阅读量806

点赞数

分类专栏： CV

本文链接：https://blog.csdn.net/irving512/article/details/108934362

版权

98 篇文章 20 订阅

订阅专栏

行为识别模型要求大量算力，主要就是对spatial和temporal维度进行卷积操作。
- 最近的关于轻量化模型的研究，一个方向就是将对 spatial 与 temporal 维度上的操作拆分开来，分别进行。但这样的模型算力还是主要看相应的2D模型在spatial上的算力。
shift操作
- 在图像领域起始就是shift操作，给出了两篇论文，但没看是干什么用的。
- TSM中使用了一种 temporal shift 操作，主要就是对temporal维度进行一种固定的shift操作。但这类模型的算力主要还是看其依赖的2D网络。
一个现象：使用连续帧作为输入时，时空信息对行为识别来说太多了，有信息冗余。
- 由于有这个现象，所以才存在一些对时空维度进行shift操作的空间。
- 但模型的每一层分别进行什么样的shift操作，就是一个探索 efficiency-accuracy tradeoff 的过程。

摘要中就说了，跟TSM相比，在参数减少2.9-5.9倍，FLOPs减少2.1-3.7倍的前提下，准确率差不多甚至更高。
论文里只给出了几个小数据集中的效果。
在补充材料中有更多内容：
- 比较了3D卷积、2D卷积+shift(TSM)、本文的3Dshift之间的时间性能与FLOPs
- 补充了Kinetics中的性能

关注

专栏目录