CoST, STM, E3D-LSTM

最新推荐文章于 2024-08-18 10:33:02 发布

Bruce_0712

最新推荐文章于 2024-08-18 10:33:02 发布

阅读量818

点赞数

分类专栏： Action Recognize

原文链接：https://zhuanlan.zhihu.com/p/77262368

版权

Action Recognize 专栏收录该内容

7 篇文章 1 订阅

订阅专栏

好久没看视频相关的文章了，刚好最近看到几篇还不错的，写个笔记总结下：

CoST[1]：海康CVPR19的文章，个人感觉非常不错，主要是将传统LBP-TOP那套XY-YT-XT视角分解的思想用到视频分类里，而不必使用以XYT为视角的3x3x3卷积，减少了很多冗余参数。

2. STM[2]：商汤ICCV19的文章。第一次看名字，以为是比较早期挂出来的 TSM[4]。。。基于TSN的2DCNN框架，也不需要提前计算好的光流，通过channel-wise的时空模块和运动模块直接在RGB采样帧中提取特征，轻量效果不错。

Fisher Yu余梓彤：时空建模新文解读：用于高效视频理解的TSMzhuanlan.zhihu.com

3. E3D-LSTM[3]：挂上李飞飞的ICLR2019文章。在 PredRNN[5] 的基础上，融入了3DCNN的输入作为short-term features，且加上了NLP中的attention机制，来获取更整体Long-term的记忆。

它们之间的关联：

对于 CoST 和 STM，都是基于3DCNN的一些轻量化优化，毕竟3DCNN真的是太庞大太冗余了，都是不需要额外光流计算且能融到当前主流的2DCNN框架里。个人认为CoST更优雅些且insight很足，而STM有点像是组合TSM和OFF[6], MFN[7]的一个unified版本；而E3D-LSTM更多是填坑组合式工作，把3DCNN和transformer的东西引入到RNN，成了the first。不管怎么说，都是很优秀的工作，用了看完了绝对有收获有价值。

--------------------------------------------

一、CoST [1]，CVPR19

主要贡献有两点：

1.构造了Collaborative SpatioTemporal (CoST) operation，仅仅用2D conv即可捕获时空信息。

2.可视化了不同数据集及不同层间spatial和temporal的重要性程度，为future的网络设计有极大的参考作用。

Motivation：

我们首先来回顾下经典的动态纹理方法 LBP-TOP[8]，将sequence分成三个正交平面，然后分别提取LBP特征，最后特征concat：

LBP-TOP

而该文的图一也同样展示了视频的三个view，明显从HT的视角来看，运动员的动作变化非常显著。基于这三个view，作者设计了 1x3x3, 3x3x1,3x1x3 卷积。哈哈，细心观察这三个图的话，你会发现不同的view对该视频内容的贡献不同，即作者后面提到的attention机制。

视频分解成三个view

具体算法：

首先来看看经典的3DCNN操作子：

(a)经典的3x3x3卷积，参数多，运算量大

(b)伪3D卷积，参数量少，运算量较小

(c)文章提出的CoST卷积，由于三个view中的卷积共享权值，故参数量等于传统的2D卷积。

OK，那么问题来了，可能你会问，为什么三个view的卷积能共享参数？那几个attention的weights又该怎么计算呢？

第一个问题看Motivation的三个子图可以大概理解，都看成一个2D image，都看成提取Image里的特征，理论上来说是可以设计成共享的。（当然啦，主要还是后面的消融实验证明了shared的性能更好）

第二个问题一般有两种方案来解决：

A、如下图所示，直接生成softmax weights来分配贡献，简单粗暴。

B、如下图所示，建立content-aware的self-attention来分配权重，中间又额外插入了类SE module来增强channel间的关联。

OK，主要内容到这里已经完了，是不是特别清爽。把这个CoST操作替换掉 ResNet50/101中residual block的 3x3 卷积即可。

实验结果：

实验都在大数据集Kinectics和Moments上进行，这文章的方法是 won the 1st place in the Moments in Time Challenge 2018.

首先来看看消融实验，Table 2中的CoST(a)和CoST(b)分别代表前面提到的两种attention weight生成方式，很明显self-attention的性能更优。Table 3中则验证了1x3x3, 3x1x3, 3x3x1间 share weight 的性能更好。

最后列下在Kinetics400下只用RGB模态的SOTA结果：

在只采样8帧or32帧的情况下，性能已经接近SOTA；算力足的话，128frame超过NL_I3D应该是没啥问题的。

Discussion：

在文章的最后，作者讨论了不同view HW, TH, TW间的attention weights的分布（HW更多是表征空间外观的特征，TH和TW更多表征temporal特征）。

分析1：On Moments in Time, the mean coefficients of the H-W, T-W and T-H views are 0.67, 0.14 and 0.19 respectively. While on Kinetics they are 0.77, 0.08 and 0.15.

说明spatial appearance特征在两个数据集都起最重要的作用。而相比Kinetics来说，Moments数据集的动作尺度更丰富，对应的TW、TH权值也较大。

分析2：如下图所示，可视化了不同层之间的三个view的权值关系。可见一般在浅的层，空间外观特征会占绝对主导；而随着层渐渐变深，temporal在semantic的特征中起得作用越来越大。这比起之前S3D那文章手动验证啥Top-heavy啥的优雅得多，而我觉得这图对未来很多3D网络设计会起到一定的引导作用。

----------------------------------------------------

二、STM [2] (SpatioTemporal and Motion Encoding)，ICCV19

主要贡献：

提出了Channel-wise Spatiotemporal Module (CSTM) 和 Channel-wise Motion Module (CMM)来分别提取时空特征和motion特征，轻量且仅额外引进很少计算量。

PS：这里的时空特征和motion特征更多的是对标传统的3DCNN特征和motion stream的2DCNN特征。

STM block

具体算法：

如上图所示，STM block能直接替换Backbone ResNet中的residual Block，其中在1x1卷积通道压缩后，分别进行CSTM和CMM的特征提取，然后进行 add （消融实验里验证了'add' 比 'concat+1x1卷积' 效果要好）特征融合，最后上扩通道数并与原输入特征相加。

接着来看看CSTM和CMM是怎么实现的：

比较亮点的地方是使用了channel-wise卷积，更精确学习特定channel语义特征基础上，减少了计算量，且消融实验验证了这样性能更好。(a)和(b)中黄色高亮字体的几个卷积是用了channel-wise的，CSTM是沿着temporal dimension来做，而CMM算伪光流的时候是沿着spatial做。总感觉文章怪怪的，是个精简版的TSM和OFF。

实验结果：

由于temporal-related 数据集(Something-something, Jester) 对上下文motion要求更苛刻，而scene-related 数据集(Kinetics-400, UCF-101, HMDB-51)对单帧场景需求更大，故我们来直接看看在temporal-related 数据集上的表现吧：