PAN: Towards Fast Action Recognition via Learning Persistence of Appearance

备注:机翻,如有侵权,立即删除
code: https://github.com/zhang-can/PAN-PyTorch
source: 2020

Abstract

高效建模视频中的动态运动信息对于行为识别任务非常重要。大部分表现好的方法都依赖于用密集光流代表行为特征。尽管结合光流和RGB帧能够取得更好的效果,光流提取是非常耗时的。这无疑是不利于实时行为识别的。在本文中,我们解除了行为识别对光流的依赖,从而做到快速的行为识别。我们的动机来源于运动边界的细小偏移是区分行为的最重要因素,所以我们设计了一个新的运动信号——外观保持(PA)。不同于光流,我们的PA模块更注重运动边界信息的蒸馏。并且,在特征空间只计算像素级的不同是比使用详尽的补丁搜索所有可能的运动向量更高效的。我们的PA在运动建模方面比传统的光流快1000倍(8196fps vs 8fps)。为了在进一步将PA中的短期动态特征聚合到长期动态特征,我们还设计了一种称为不同时间尺度聚合池(VAP)的全局时间融合策略,该策略可以自适应地在不同的时间尺度上建模远程时间关系。 最后,我们将所提出的PA和VAP结合起来,形成一个统一的框架,称为持久性外观网络(PAN),具有较强的时间建模能力。 在六个具有挑战性的动作识别基准上的广泛实验验证了我们的PAN在低FLOPs下的性能优于最近最先进的方法。

1 Introduction

3 Proposed Method

Theoretical Derivation of PA

正如在第一节中讨论的,细小的运动边界变化在行为识别中影响最大。给定相邻的两帧,我们努力获得一个可以突出细小的运动边界变化的显著图。

在光流中,亮度恒定约束定义为:
在这里插入图片描述
I(x,y,t) 代表视频的第t帧在坐标 (x,y) 处的像素值。当时间从 t 变化到 (t + ∆t), 横纵坐标的变化分别为∆x, ∆y。这个约束公式假定一个点的亮度不变,当它从 t 时刻的 (x,y) 变化成 t + ∆t 时刻的 (x + ∆x, y + ∆y)。 通过优化方法,可以通过找到最优解(∆x∗,∆y)来估计光流,并考虑额外的约束,例如局部平滑假设,以估计实际流量。

我们扩展Eq 1。 将图像I(x,y,t)替换为其第i个特征映射FI(x,y,t),在特定层之后:
在这里插入图片描述
第i个特征映射之间的差异映射D给出为:
在这里插入图片描述
如果我们在特征空间中应用光流约束,D往往具有较低的绝对值。 然而,在每个位置搜索相邻区域以找到最优解(∆x∗,∆y∗)是耗时的,因此我们不使用这样复杂的搜索策略。 与光流相比,我们只捕获特征空间某一点的运动变化,而不考虑运动的方向,这与我们在运动边界上建模小位移的想法完全一致,因为:(1)小位移被感知,因为低水平特征图中的一个像素包含输入空间中小接收场的信息;(2)运动边界被捕获,因为前几个卷积层倾向于捕获一般模式,例如边界、纹理等[23]。因此,低层特征映射之间的差异将更多地关注边界的变化。总的来说,通过卷积操作,低级特征映射中的差异可以反映运动边界的细小变化。

因此,我们定义第 i 个 PA 模块为:
在这里插入图片描述
其中p=(x,y)和i=1,…,C和C是信道号。 因此,我们可以得出结论,我们的PA与光流高度相关。 这为其在运动信息建模中的有效性提供了理论支持。

所有计算的PAI都可以进一步累积到1通道,以显示运动幅度,这可以反映边界上的运动变化。
在这里插入图片描述

PA Module Design

在这里插入图片描述

由于我们的PA在特征空间中工作,我们需要搜索卷积层(卷积层)的最佳深度选择来生成特征映射。 我们将基本卷积层定义为具有步长=1和填充=3的8个7×7个卷积,从而不降低所获得的特征映射的空间分辨率。 假设d个基本卷积层依次叠加形成d深度网络,我们对5个深度为d的网络进行了实验,深度分别为0、1、2、4和8。 在UCF101分裂1数据集上的实验结果如图 2-b所示。 圆圈的面积表示计算成本(FLOP)。 我们发现,直接应用输入空间(d=0)中的像素级差异积累并不能达到最佳效果。当d=1时达到最佳性能,即只采用一个基本的卷积层。 随着网络的深入,FLOP显著增加,性能下降。 这主要是因为具有大接收场的高级特征已经被高度抽象,因此可能无法反映输入图像中的小运动变化。 实验结果与我们的观点一致,即低水平特征图的差异可以反映运动边界的小位移,这是识别动作的最关键因素。由于d=1表现最好,我们设计了一个轻加权的“PA模块”,它只包含单个基本卷积层(8个7×7个卷积),以获得低层次的特征和几个基于Eq4、5的计算操作。 该模块在两个相邻帧之间逐像素地执行低层次表示比较,并输出一个反映运动边界小位移的显着性映射(PA)以供进一步处理。 这个模块位于我们网络的底部,如图3-B&3-C所示。 (详细的建筑信息将在SEC四-a中提供)。

如图所示。 给定两个相邻帧∈RH×W×3,H、W和3是它们的高度、宽度和信道数。 首先,在不降低空间分辨率的情况下,获得低层次特征映射F1、F2∈RH×W×C。 然后,计算具有相同索引I的两个特征映射之间的像素级值差(见Eq。 4)。 最后,基于Eq将所有计算的PAI累积到1通道。 因此,结果PA∈RH×W是二维的。 因此,在“PA模块”中,从外观到动态运动建立了RH×W×3→RH×W的映射。

Encoding Schemes

如上所述,PA是一个简洁的运动提示,重点是两个相邻帧之间运动边界的小位移。 我们还想了解PA在运动建模中的实际作用。 直观地说,PA可以作为辅助输入模式或空间注意图。 因此,我们在这里探讨了两种有意义的编码方案:PA作为运动模态与注意图。 给定m个相邻帧集{I(I)}mi=1,将PA模块中相应的低级特征映射定义为{F(I)}mi=1,并对每两个相邻帧进行处理,得到总(mm1)PA:{PA(I)}mm1i=1。 假设后续主干网络的输入方式为O,因此在本节中,我们将讨论执行映射过程的两种编码方案e1,e2, ei:PA→O,即聚合PA到O.

  • 1) PA as motion modality. 这是直接利用PA中包含的运动信息的最简单的方案。一般来说,对于动作识别方法,以叠加光流作为输入来捕获运动信息可以显著提高性能。 由于PA还具有描述两个连续RGB帧之间像素级表观运动信息的能力,我们使用叠加PA作为输入模式,如图2-c所示 。 本方案可表示为:
    在这里插入图片描述
    在这里,我们定义m-1Υi=1(·)作为累积信道连接函数,按时间顺序将输入张量沿信道维数连接起来。 因此,如果输入张量Pa(I)∈RH×W×1,则输出张量O1∈RH×W(m-1)

  • 2)PA as attention. 人类感知研究[38],[39]表明瞬时运动可以吸引注意力。 最近的视频分析工作在光流捕获的运动的注意引导下受益匪浅,如视频突出物检测[40]、视频字幕[41]等。 在此基础上,我们试图利用PA中的运动信息来强调外观特征映射中的一些重要区域,如图所示。 二维。 这个PA引导的空间注意方案定义如下,我们使用具有乙状结肠激活的PA来参加相应的平均特征映射:
    在这里插入图片描述
    其中σ(·)是sigmoid函数,µ(·)返回沿通道维数的输入特征映射的平均值。 表示按元素计算的乘法,因此如果输入张量PA(I)∈RH×W×1和F(I)∈RH×W×C,则µ(F(I))RH×W1和O2,RH×W(m-1)

  • Which encoding scheme is better? 我们比较了使用这两种编码方案的PA模块在UCF101分裂1数据集上的运行效率和动作识别精度方面的性能。 结果见表一。 为了测量效率,我们考虑了PA模块的计算成本(FLOPs)、参数数(#Param)和推理速度(Speed。 为了评估这两种编码方案在动作识别任务上的性能,我们遵循TSN方式:首先从均匀划分的视频段中采样帧,然后将这些帧依次输入PA模块和主干CNN(ResNet-50),最后将输出激活作为最终预测分数。 更多的实施细节在补充材料中。
    在这里插入图片描述

表一的结果清楚地表明,编码方案E1,直接利用PA中包含的运动信息,表现得更好。 它不仅具有较少的FLOP,而且具有较高的运行速度和优越的识别性能。 两种编码方案的参数数量相同,因为1.184K的参数完全来自PA模块,后续的编码过程不引入任何额外的可学习参数。 sigmoid 函数和元相乘是导致计算速度下降的主要原因。 值得注意的是,e2也降低了1.5%的准确性。 我们假设,当使用外观主导特征(即外观特征映射)作为输入时,特征必须确保外观的整体区域以表示视频类别的语义信息。 然而,对于e2,使用PA出席外观特征映射将突出运动边界,导致内部和内部的不平衡的外观反应移动物体的边界,因此E2在这种完整性方面是有限的。 编码方案e1,相反,只利用运动主导特征(即PA),因此不需要考虑外观完整性。 因此,基于上述观察,我们采用E1(即直接利用PA作为输入运动模态)作为默认编码方案。

Persistent Appearance Network

在这里插入图片描述

Experiments

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Conclusion

本文通过提高对光流的依赖程度,阐明了快速动作识别。 我们设计了一个简洁的运动提示,称为外观的持久性(PA),直接从RGB帧中捕获运动信息。 与光流相比,我们的PA更有效地通过更多地关注运动边界的小位移建模,并且通过简单地计算特征空间中两个相邻帧之间的像素级差异来提高效率。 其效率、有效性和灵活性得到了广泛的理论支持(SEC)的充分阐述。 实验支持(SEC。 和可视化支持(SEC。 v-e)。 我们的PA的运动建模速度比传统的光流法(8196fpsvs8fps)快1000×)。为了进一步将PA中的短期动态聚合为长期动态,我们还提出了一种时间融合策略,名为“各种时间尺度聚合池(VAP)”,该策略使网络能够捕获远程不同时间尺度的相互依赖关系。 最后将所提出的PA和VAP结合起来,形成一个统一的框架称为持久性外观网络(PAN)。 在六个具有挑战性的基准上的广泛实验表明,我们提出的PAN达到了最先进的识别性能。 最重要的是,它显著加速了动作识别的推理过程,具有强大的运动提示PA。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值