浅谈动作识别TSN, TRN, ECO

SIGAI_csdn

于 2018-09-24 11:35:06 发布

阅读量8.4k

点赞数 8

分类专栏：机器学习人工智能文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/SIGAI_CSDN/article/details/82828114

版权

本文对比了视频动作识别中的TSN、TRN和ECO方法。TSN采用稀疏时间采样策略，TRN侧重时间维度上的关系推理，ECO则在时空特征融合上做了优化，实现在线视频理解。实验表明，TRN在时间上下文关联性强的数据集中表现优于TSN，而ECO结合了TSN和3Dconv的优点，运行效率高。

摘要由CSDN通过智能技术生成

其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习-原理、算法与应用》，清华大学出版社，雷明著，由SIGAI公众号作者倾力打造。

什么是动作识别？给定一个视频，通过机器来识别出视频里的主要动作类型。

动作识别表面是简单的分类问题，但从本质上来说，是视频理解问题，很多因素都会影响其中，比如不同类型视频中空间时间信息权重不同？视频长短不一致？视频中动作持续的起始终止时间差异很大？视频对应的语义标签是否模糊？

本文主要对比video-level 动作识别的经典方法TSN，及其拓展变形版本的TRN和ECO。

Temporal Segment Network[1], ECCV2016

TSN提出的背景是当时业界做动作识别都是用Two-stream CNN 和C3D 比较多，它们都有个通病，就是需要密集采样视频帧，比如C3D 中使用的是连续采样间隔的16 frames，这样当输入是个Long视频，计算量很庞大~

故文中就提出了稀疏时间采样策略，就是不管输入视频的长短，直接分成K个Segment，然后在每个Segment再随机找出一个时间小片，分别用shared CNN 来提取空间上的特征，再进行feature-level 的融合，最后再Softmax 分类：

公式中Tk表示第K个Segment；函数F表示CNN网络出来的特征；G表示特征融合函数；H表示分类层Softmax。

整个网络框架图如下，很简洁：

TSN[1]

由于其中没有使用3D conv，故为了更好进行temporal 特征提取，文中也使用了类似双流的多模态输入：即上图的Spatial ConvNet 的输入可以是RGB图或者RGB差异图；Temporal ConvNet 的输入可以是光流图或者wrapped光流：

不同模态输入[1]

从实验结果来看，使用Average fusion去融合特征效果最好；而当使用三模态输入(Optical Flow + Warped Flow + RGB)时，在HMDB51和UCF101超state-of-the-art；不过若只是RGB作为输入的话，性能不如C3D~

总结：

Pros:通过Sparse temporal sampling 可以扔掉很多冗余帧，初步满足实际应用的real-time要求。

Cons: 对于Temporal特征欠考虑，更多地是focus 在apperance feature。文中亦无对比超参K值（Default K=3）的选取对结果的影响及Segment内部采样小片策略。

Temporal Relation Network[2], ECCV2018

TRN致力于探索时间维度上的关系推理，那问题来了，怎么样才能找到特征间在时间上的传播关系呢？其实像传统的3D conv架构（C3D，P3D，R(2+1)D, I3D）,也是有Temporal conv 在里头，也能从不同感受野即multi-temporal-scale来得到联系。本文是在TSN框架上，提出用于video-level的实时时间关系推理框架。

TRN的main contribution 有两个：

设计了新型的fusion函数来表征不同temporal segment 的relation，文中是通过MLP( concat feature -- ReLU -- FC -- ReLU -- FC)的结构来实现，而TSN中的fusion函数只是通过简单的average pooling
通过时间维度上Multi-scale 特征融合，来提高video-level鲁棒性，起码能抗快速动作和慢速动作干扰。

下图的框架图一目了然，算法实现流程就是先均匀地采样出不同scale的Segment 来对应2-frame, 3-frame, ..., N-frame relation；然后对每个Segment里小片提取Spatial feature，进行MLP 的temporal fusion，送进分类器；最后将不同scale的分类score叠加来作最后预测值。

TRN[2]

两个实现的细节点需要注意：

1. 对采样下来的N-frame，必须保持时序性，即从先到后；这样后面的temporal fusion环节MLP才能学会推理动作的时间关系。

2. 不同scale的采样帧对应的MLP 都是独立的，不share参数，因为含的帧数信息量也不同，输入给MLP的大小自然也不同。

文中给出了几个非常有趣的实验结果：

1.如下图所示，在不同的数据集, TRN和TSN的性能差异很大。这说明什么问题呢？在UCF, Kinectics, Moments里两者的性能相近，说明这三个数据集的动作与空间上下文具有强相关性，而对于时间上下文相关性较弱；而Something-something, Jester, Charades 里动作较为复杂，时间上下文联系较强，TRN的性能明显高于TSN