论文笔记-Action Recognition-<TEA: Temporal Excitation and Aggregation for Action Recognition>

本文介绍了一种名为TEA的模块,用于动作识别,包括运动激发(ME)和多时间聚合(MTA)两个部分。ME模块通过计算时间差异来激发运动丰富的通道,而MTA模块通过子卷积层次结构扩大时间感受野,有效模拟远程时间动态。在几个标准数据集上,TEA表现出高效的时间建模能力,特别是在Something-Something数据集上,证明了其在时间建模方面的优势。
摘要由CSDN通过智能技术生成

论文笔记:TEA: Temporal Excitation and Aggregation for Action Recognition

Author:Yan Li [1], Bin Ji [2], Xintian Shi [1], Jianguo Zhang [3], Bin Kang [1], Limin Wang [2];
[1] Platform and Content Group (PCG), Tencent, [2] State Key Laboratory for Novel Software Technology, Nanjing University, China, [3] Department of Computer Science and Engineering, Southern University of Science and Technology, China.
URL:https://arxiv.org/abs/2004.01398

Abstract

时间建模对于动作识别至关重要。通常需要同时考虑短时运动和长时的特征聚合。本文中提出了 Temporal Excitation and Aggregation (TEA) 模块,包括一个 motion excitation (ME) (运动激励)模块和一个 multiple temporal aggregation (MTA) 聚合模块,来捕捉短时和长时时间变化。ME模块计算时间间的时空特征差异。然后利用这些差异来激发运动丰富的通道。之前工作的长时时间聚合通常是通过堆叠大量的局部时间卷积来实现的,每一个局部时间卷积处理一个局部时间窗。相比之下,MTA模块将局部卷积变形为一组子卷积,形成一种层次残差结构。在不额外引入参数的情况下,特征可以通过一系列子卷积进行处理,每帧可以与邻域多帧的时间聚合。相当于扩大了时间维上的感受野,可以对远程帧的时间关系进行建模。TEA的两个模块对于时间的建模是互补的。我们的方法在几个标准数据集上以低的FLOPs取得了很好的效果:Kinetcs,Something-Something,HMDB51,UCF101,证明了其有效性。

1.Introduction

应用广泛。对于视频动作识别,虽然外观信息很重要,但是时间结构同样重要。时间建模通常以不同尺度呈现:1)邻近帧的短时运动,2)长时间范围的时间聚合。虽然有大量的深度CNN方法出现,但如何有效且高效地对复杂变化的时间结构进行建模仍有很多困难。

对于短时运动建模,已有的工作大多是首先生成光流特征,然后输入以2D CNN为基础的双流网络,分别处理RGB帧和光流信息。光流计算需要大量计算和存储消耗,而且,空间和时间特征的学习是分离的,两者的融合只在最后一层。为解决这个问题,作者提出了ME模块。该模块可以将运动建模集成到整个时空特征学习方法中,而不是采用像素级的光流作为额外的输入模态并且将时间流和空间流的训练学习分开。具体来说,首先计算邻近帧的运动特征表示,然后利用这些特征产生一个权重,该权重用来对原始帧产生的运动信息进行激励。通过这种方式,网络被迫发现和增强捕获差异化信息的信息时间特征。

对于长时聚合,已有方法:1)利用2D CNN产生帧级特征,然后采用最大或平均池化来聚

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值