[论文阅读] ACTION-Net: Multipath Excitation for Action Recognition

ACTION-Net: Multipath Excitation for Action Recognition

单位 都柏林圣三一大学、字节跳动

会议 CVPR 2021

论文地址 arxiv

代码地址 github

摘要

时空特征、通道特征和运动特征是视频动作识别中三种重要信息。传统的二维CNN计算成本低,但无法捕捉时间关系;三维CNN可以很好捕捉时间关系,但计算量大。在这项工作中,通过设计一个通用且有效的模块来解决这个难题,该模块可以嵌入到二维CNN中。为此,提出了一种时空、通道和运动激励(ACTION)模块,包括三条路径:时空激励(STE)路径、通道激励(CE)路径和运动激励(ME)路径

  • STE路径采用单通道3D卷积来表征时空表示

  • CE路径通过在时间方面显式地建模通道之间的相互依赖性来自适应地重新校准通道特征响应

  • ME路径计算特征级的时间差,然后利用这些时间差来激励运动敏感通道

引言

视频中的复杂动作通常是时间相关的,它不仅包含每一帧的空间信息,而且还包含一段时间内的时间信息。传统的动作识别更多的是场景相关的,其中的动作没有时间依赖性,例如,“上眼妆”,“走路”,“跑步”。随着技术的飞速发展,如虚拟现实(VR)等需要利用特征与环境进行交互的技术,时间相关的动作识别近年来成为研究的热点。

​现有方法的主流是基于三维CNN和基于二维CNN。3D CNN已被证明在时空建模方面是有效的,但时空建模无法捕获视频中包含的足够信息。提出的双流体系结构将时空信息和光流纳入计算,与单流体系结构相比显著提高了性能。然而,光流的计算非常昂贵,这给实际应用带来了挑战。三维CNN存在过拟合和收敛速度慢等问题

随着更多大规模数据集的发布,如Kinetics、Moments in Time和ActivityNet,优化3D CNN变得更加容易和普及。然而,基于3D CNN固有的繁重计算导致推断速度缓慢,这将限制它们在实际应用中的部署,例如依靠在线视频识别的虚拟现实。当前基于2D CNN的方法有着轻量级和快速推理的优势。这些方法基于从整个视频中稀疏采样的一系列短片段(称为片段),最初在TSN中引入。原始的二维cnn缺乏时间建模能力,这导致在某些操作中丢失了必要的序列信息,例如“打开一个盒子”与“关闭一个盒子”。TSM通过在时间轴上移动一部分通道,将时间信息引入到基于2D CNN的框架中,这显著改善了基于2D CNN的框架的基线。然而,TSM仍然缺乏明确的动作时间模型,例如运动信息

最近的工作根据ResNet架构将嵌入式模块引入到2d cnns中,具有运动建模的能力。为了捕捉视频中包含的多种类型的信息,以前的工作通常在输入级帧上进行。例如,SlowFast网络以多种速率对原始视频进行采样,以描述慢动作和快动作;双流网络利用预先计算的光流来推理运动信息。这种方法通常需要多分支网络,这需要昂贵的计算。

​受上述观察结果的启发,提出了一种新的即插即用、轻量级的时空、通道和运动激励(ACTION)模块,通过采用多径激励在单个网络中有效地处理特征层上的多种类型信息。时空特征和运动特征的组合可以类似地理解为双流结构,但是基于特征级别对网络内部的运动进行建模,而不是生成另一种类型的输入(例如,光流)来训练网络,这大大减少了计算量。受SENet的启发,基于时域提取通道特征来表征网络的通道相关性。相应地,配备了这样一个模块的新体系结构被称为ActionNet。

相关工作

基于 3D CNN

​基于3D CNN的框架具有时空建模能力,提高了视频动作识别的模型性能。I3D将ImageNet预先训练的2D核膨胀为3D核,用于捕获时空信息。为了更好地表示运动模式,I3D利用了预先计算的光流和RGB(也称为双流结构)。SlowFast 网络被提出用于处理视频中动作的不稳定速度,例如跑步和步行,它分别涉及一个慢分支和一个快分支来模拟慢动作和快动作。尽管基于3D CNN的方法在多个基准数据集上取得了令人兴奋的结果,但它们包含大量参数。

在这种情况下,会产生各种各样的问题,例如容易过度拟合和难以收敛,这带来了挑战,包括在真实应用中在线流视频的低效率的推断。尽管最近的工作已经证明三维卷积可以分解以在一定程度上减少计算,但是与基于二维CNN的框架相比,计算仍然是一个更大的负担。

基于2D CNN

​TSN是第一个提出的将2D CNN应用于视频动作识别的框架,该框架引入了“片段”的概念来处理视频,即使用单一形式的稀疏采样方案在长视频序列上提取短片段。然而,直接使用2dcnns缺乏对视频序列的时域建模。TSM首先将时态建模引入到基于二维CNN的框架中,将一部分通道的移位操作嵌入到二维CNN中。然而,TSM缺乏明确的动作时间建模,例如相邻帧之间的差异。最近,有几项工作建议将模块嵌入到二维CNNs中。这些模块能够模拟运动和节奏信息。例如,MFNet、TEINet和TEA引入了这种类型的模块,它们在ResNet架构上被证明是有效的。STM提出了一种用于时空和运动信息建模的块,而不是普通的残差块。GSM利用组空间选通来控制时空分解中的交互。

SENet 和改进

Hu等人介绍了一种SENet体系结构。提出在二维CNN中嵌入squeeze-and-excitation(SE)块。在这种情况下,通过显式地建模通道相互依赖性,可以增强有关图像识别任务的通道特征的学习。为了解决这个问题,SE块以squeeze-and-unsqueeze方式利用两个全连接的层,然后应用Sigmoid激活函数来激发基本的通道特性。但是,它独立地处理每个图像,而不考虑关键信息,如视频的时间特性。为了解决这个问题,TEA引入了运动激励(ME)和多重时间聚集(MTA)来捕捉短期和长期的时间演化。需要注意的是,MTA是专门为Res2Net设计的,这意味着TEA只能嵌入Res2Net中。受前两个工作的启发,提出了STE和CE模块,解决时空和通道在时间维度上的相互依赖性。Action模块由STE、CE和ME并行组装而成,可以激活视频中的多种类型信息。

ACTION的设计

ACTION模块由时空激励(STE)、通道激励(CE)和运动激励(ME)三个子模块组成

整体ACTION模块分别对STE、CE和ME生成的三个激励特征进行元素级的相加。通过这样做ACTION模块的输出可以获得时空信息、通道间依赖信息和运动信息。图3显示了ResNet-50的ACTION-Net架构,其中ACTION模块插入到每个残差块的开头。它不需要对块中的原始组件进行任何修改。

在这里插入图片描述

时空激励 (STE)

在这里插入图片描述

  • 对输入X (N×T×C×H×W)通道平均池化得到F(N×T×1×H×W)

  • 改变F维度为N×1×T×H×W

  • 经过3×3×3的3D卷积中得到 F ∗ ( N × 1 × T × H × W ) F^∗ (N×1×T×H×W) F(N×1×T×H×W)

  • F ∗ F^∗ F 改变维度得到 F o ( N × T × 1 × H × W ) F_o (N×T×1×H×W) Fo(N×T×1×H×W)

  • F o F_o Fo 经过Sigmoid激活得到mask M(N×T×1×H×W)

  • 输入X经过M⨀X+X激励得到输出

通道激励(CE)

在这里插入图片描述

  • 对输入X (N×T×C×H×W)在空间平均池化得到F(N×T×C×1×1)

  • 使用1×1卷积来压缩 F的通道数得到特征 F r ( N × T × C / r × 1 × 1 ) F_r (N×T×C/r×1×1) Fr(N×T×C/r×1×1)

  • 改变 F r F_r Fr 维度得到 F r ∗ ( N × C / r × T × 1 × 1 ) F_r^∗ (N×C/r×T×1×1) Fr(N×C/r×T×1×1)

  • 经过卷积核为3的一维卷积后得到 F t e m p ∗ ( N × C / r × T × 1 × 1 ) F_{temp}^∗ (N×C/r×T×1×1) Ftemp(N×C/r×T×1×1)

  • 改变$ F_{temp}^∗$ 维度为 F t e m p ( N × T × C / r × 1 × 1 ) F_{temp} (N×T×C/r×1×1) Ftemp(N×T×C/r×1×1)

  • 经过1×1卷积得到$ F_o (N ×T ×C ×1 ×1) $

  • F o F_o Fo经过Sigmoid激活,得到mask M(N ×T ×C×1×1)

  • 输入X经过M⨀X+X激励得到输出

运动激励(ME)

在这里插入图片描述

  • 输入X (N×T×C×H×W)经过1×1卷积压缩得到 F r ( N × T × C / r × H × W ) F_r (N×T×C/r×H×W) Fr(N×T×C/r×H×W)

  • 计算各帧的运动特征 K是3×3卷积

F m = K ∗ F r [ : , t + 1 , : , : , : ] − F r [ : , t , : , : , : ] F_m=K∗F_r [:,t+1,:,:,:]-F_r [:,t,:,:,:] Fm=KFr[:,t+1,:,:,:]Fr[:,t,:,:,:]

  • 根据时间维度将运动特征串联得到 F M ( N × T × C / r × H × W ) F_M (N×T×C/r×H×W) FM(N×T×C/r×H×W)

F M = [ F m ( 1 ) , ⋯ , F m ( t − 1 ) , 0 ] F_M=[F_m (1),⋯,F_m (t-1), 0] FM=[Fm(1),,Fm(t1),0]

  • F M F_M FM经过空间平均池化得到$F_o (N ×T ×C/r×1 ×1) $

  • 再经过1×1卷积, Sigmoid激活后得到mask M

  • 输入X经过M⨀X+X激励得到输出

实验

数据集

数据集介绍行为数训练集验证集测试集
Something-Something V2人与日常生活中物体交互的动作数据集174168,91324,77727,157
Jester第三人称视角的手势数据集27118,56214,78714,743
EgoGesture头戴式摄像机记录的手势数据集8314,41647684977

  • 在Jester和EgoGesture上取得了SOTA

  • 在Something V2上相比较STM和TEA也取得了接近的效果

在这里插入图片描述


消融实验

  • 动作激励相比时空激励和通道激励对性能提升最大

  • 时空激励在更小的计算量和参数量下性能提升和通道激励相当

在这里插入图片描述


ACTION-Net在不同主干网络都带来了性能提升,具有良好的通用性

在这里插入图片描述

总结

  • 提出了一个即插即用、轻量级的时空、通道和运动激励模块(ACTION)
  • 采用了多路径激励的方法有效地捕获时空特征、通道特征和运动特征
  • 提出的ACTION模块可以被任何二维卷积模型用来构建视频动作识别网络
  • 4
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Action-net是一种用于动作识别的多路径激励模型。它通过同时考虑多个视角和多个时间尺度的信息,提高了动作识别的准确性。模型的核心是一个多路径卷积神经网络,它可以从不同的视角和时间尺度提取特征。此外,模型还使用了一种新的激励机制,可以增强不同路径之间的信息交互,从而进一步提高了准确性。 ### 回答2: Action-Net是一个用于动作识别的多路径激发(Multipath Excitation)模型。动作识别是计算机视觉领域的一个重要任务,旨在从视频中自动识别和分类不同的动作。Action-Net通过采用多路径激发方法,提高了动作识别的准确性和性能。 多路径激发是一种模型设计技术,通过在网络架构中引入多个并行路径,每个路径分别学习不同的特征表示进行动作识别。这样的设计可以捕获到不同级别、不同尺度和不同分辨率的特征信息,提供更加全面准确的动作表示。 Action-Net利用了深度神经网络的强大表达能力,将视频输入分为多个时间段或空间尺度,并在每个时间段或空间尺度上构建不同的网络路径。每个路径在不同的时间尺度或空间分辨率上学习不同的特征表示,这些特征表示可以捕捉到动作的关键信息。 通过引入多路径激发机制,Action-Net可以同时学习到描述全局结构和细节特征的表示。此外,多路径激发还可以减轻网络在学习过程中的过拟合问题,提高了模型的泛化能力。 在实验中,Action-Net在各种动作识别任务上取得了优秀的性能。与传统的单一路径模型相比,Action-Net的准确性有了显著提升。多路径激发不仅可以用于动作识别,还可以应用于其他计算机视觉任务,如目标检测和图像分割。 综上所述,Action-Net是一种基于多路径激发的动作识别模型,通过引入多个并行路径学习不同的特征表示,提高了动作识别的准确性和性能。它具有较强的表达能力和泛化能力,在计算机视觉任务中有着广泛的应用前景。 ### 回答3: "action-net: multipath excitation for action recognition"是一种用于行为识别的多路径激励模型。 行为识别是计算机视觉中的一项重要任务,它旨在通过分析视频或图像序列来识别和理解人类的动作或行为。为了更好地解决这个问题,研究人员提出了许多方法,其中一个方法就是使用深度神经网络。 "action-net: multipath excitation for action recognition"是一种基于深度神经网络的模型,它通过多路径激励的方式来增强行为识别的性能。多路径激励是指通过引入多个并行的路径,每个路径都具有不同的特征提取能力,以捕捉不同方面的行为特征。 在"action-net"模型中,每个路径都是一个独立的卷积神经网络,这些网络在不同尺度和层次上进行特征提取。每个网络都通过激励机制来增强其对特定行为特征的敏感性。这种激励机制可以使网络在学习时集中注意力于关键的特征,提高行为识别的准确性。 通过多个路径的组合,"action-net"模型能够充分利用不同尺度和层次的特征信息,增强行为识别的鲁棒性和泛化能力。此外,多路径激励还能够有效地缓解过拟合问题,提高模型的泛化能力。 总之,"action-net: multipath excitation for action recognition"是一种基于深度神经网络行为识别模型,通过多路径激励的方式有效地提高了行为识别的性能。它能够捕捉不同尺度和层次的行为特征,提高模型的鲁棒性和泛化能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值