论文笔记:TEA: Temporal Excitation and Aggregation for Action Recognition
Author:Yan Li [1], Bin Ji [2], Xintian Shi [1], Jianguo Zhang [3], Bin Kang [1], Limin Wang [2];
[1] Platform and Content Group (PCG), Tencent, [2] State Key Laboratory for Novel Software Technology, Nanjing University, China, [3] Department of Computer Science and Engineering, Southern University of Science and Technology, China.
URL:https://arxiv.org/abs/2004.01398
Abstract
时间建模对于动作识别至关重要。通常需要同时考虑短时运动和长时的特征聚合。本文中提出了 Temporal Excitation and Aggregation (TEA) 模块,包括一个 motion excitation (ME) (运动激励)模块和一个 multiple temporal aggregation (MTA) 聚合模块,来捕捉短时和长时时间变化。ME模块计算时间间的时空特征差异。然后利用这些差异来激发运动丰富的通道。之前工作的长时时间聚合通常是通过堆叠大量的局部时间卷积来实现的,每一个局部时间卷积处理一个局部时间窗。相比之下,MTA模块将局部卷积变形为一组子卷积,形成一种层次残差结构。在不额外引入参数的情况下,特征可以通过一系列子卷积进行处理,每帧可以与邻域多帧的时间聚合。相当于扩大了时间维上的感受野,可以对远程帧的时间关系进行建模。TEA的两个模块对于时间的建模是互补的。我们的方法在几个标准数据集上以低的FLOPs取得了很好的效果:Kinetcs,Something-Something,HMDB51,UCF101,证明了其有效性。
1.Introduction
应用广泛。对于视频动作识别,虽然外观信息很重要,但是时间结构同样重要。时间建模通常以不同尺度呈现:1)邻近帧的短时运动,2)长时间范围的时间聚合。虽然有大量的深度CNN方法出现,但如何有效且高效地对复杂变化的时间结构进行建模仍有很多困难。
对于短时运动建模,已有的工作大多是首先生成光流特征,然后输入以2D CNN为基础的双流网络,分别处理RGB帧和光流信息。光流计算需要大量计算和存储消耗,而且,空间和时间特征的学习是分离的,两者的融合只在最后一层。为解决这个问题,作者提出了ME模块。该模块可以将运动建模集成到整个时空特征学习方法中,而不是采用像素级的光流作为额外的输入模态并且将时间流和空间流的训练学习分开。具体来说,首先计算邻近帧的运动特征表示,然后利用这些特征产生一个权重,该权重用来对原始帧产生的运动信息进行激励。通过这种方式,网络被迫发现和增强捕获差异化信息的信息时间特征。
对于长时聚合,已有方法:1)利用2D CNN产生帧级特征,然后采用最大或平均池化来聚