Actor-Context-Actor Relation Network for Spatio-Temporal Action Localization 论文翻译-CSDN博客

本文链接：https://blog.csdn.net/dai_tou_dage/article/details/123546791

Actor-Context-Actor Relation Network for Spatio-Temporal Action Localization

Abstract

对人员进行定位并从视频中识别他们的行为是对高级视频理解的一项具有挑战性的任务。最近的进展是通过对实体之间的直接成对关系建模来实现的。在本文中，我们更进一步，不仅模拟了对之间的直接关系，而且还考虑了建立在多个元素上的间接高阶关系。我们建议对 Actor-Context-Actor Relation 进行显式建模，这是两个 Actor 之间基于他们与上下文的交互的关系。为此，我们设计了一个 Actor-Context-Actor 关系网络 (ACAR-Net)，它建立在一个新的高阶关系推理算子和一个 Actor-Context 特征库的基础上，以实现时空动作定位的间接关系推理。 AVA 和 UCF101-24 数据集上的实验显示了对参与者-上下文-参与者关系建模的优势，注意力图的可视化进一步验证了我们的模型能够找到相关的高阶关系以支持动作检测。值得注意的是，我们的方法在 ActivityNet Challenge 2020 的 AVA-Kinetics 动作定位任务中排名第一，明显优于其他条目（+6.71 mAP）。该代码可在线获取

1. Introduction

时空动作定位需要对人员进行定位并从视频中识别他们的动作，是近年来越来越受到关注的一项重要任务[15,12,8,46,35,58,52,54,41, 29、55、17、20]。与仅通过观察视觉外观即可完成的对象检测不同，活动识别通常需要推理参与者与周围环境（包括环境、其他人和对象）的交互。以图 1 为例。为了识别红色边界框中人的动作“骑行”，我们需要观察他在车里，旁边有一个司机。因此，时空动作检测的最新进展是由关系建模的成功推动的。这些方法侧重于根据实体之间的成对交互对关系进行建模。

在这里插入图片描述

图 1. 我们将我们的 Actor-Context-Actor 关系建模与现有的用于动作定位的关系推理方法进行对比。实体对之间的推理关系可能并不总是足以正确预测所有个体的动作标签。我们的方法不仅可以推理演员之间的关系，还可以模拟不同演员-上下文关系之间的联系。例如，蓝色演员和方向盘（开车）之间的关系是识别红色演员（坐车）正在执行的动作的关键线索。

然而，元素之间的关系并不总是可以用成对来表示。通常，高阶关系为准确的动作检测提供关键线索。在图 1 中，仅考虑到红色演员与蓝色演员的关系，或仅与场景上下文（方向盘）的关系，很难推断出红色演员的动作。相反，为了识别红色演员执行动作“骑行”，必须推理蓝色演员与上下文（驱动）之间的交互。换句话说，需要捕获两个参与者之间的隐式二阶关系基于他们各自与上下文的一阶关系。

以前的工作使用图神经网络 (GNN) 来隐式地对参与者和上下文对象之间的高阶交互进行建模 [45、58、38、57、10]。然而，在这些方法中，需要额外的预训练对象检测器，并且仅将定位的对象用作上下文。由于时空动作定位数据集中对象的边界框注释通常不提供，因此预训练的对象检测器仅限于其原始对象类别，并且很容易错过场景中的各种对象。此外，这些方法中的高阶关系仅限于仅从上下文对象中推断出来，这可能会遗漏用于动作分类的重要环境或背景线索。

为了解决上述问题，我们提出了一个 Actor-Context-Actor 关系网络 (ACAR-Net)，它专注于以 Actor-Context-Actor 关系的形式对二阶关系进行建模。它推断出多个参与者之间的间接关系以及动作本地化的上下文。 ACAR-Net 将参与者和上下文特征作为输入。我们将参与者特征定义为从参与者感兴趣区域汇集的特征，而对于上下文特征，我们直接使用来自骨干网络的时空网格特征图。我们采用的上下文不依赖于任何具有预定义类别的额外对象检测器，从而使我们的整体设计更加简单和灵活。此外，网格特征图能够表示各种级别（例如实例级别和部分级别）和类型（例如背景、对象和对象部分）的场景元素，这对于细粒度的动作识别很有用。所提出的 ACAR-Net 首先对一阶参与者上下文关系进行编码，然后应用高阶关系推理算子对一阶关系之间的交互进行建模。高阶关系推理算子是完全卷积的，并且在不丢失空间布局的情况下对一阶关系特征图进行操作。为了支持不同时间段的演员和上下文之间的演员-上下文-演员关系推理，我们构建了一个演员-上下文特征库，其中包含整个视频中不同时间步长的演员-上下文关系。

我们对具有挑战性的原子视觉动作 (AVA) 数据集 [15、22] 以及用于时空动作定位的 UCF101-24 数据集 [34] 进行了广泛的实验。我们提出的 ACAR-Net 在识别人-物体和人-人交互方面取得了重大改进。定性可视化表明我们的方法学习关注与感兴趣的动作相关的上下文区域。

我们的贡献总结为三方面：

我们建议为时空动作定位建模参与者-上下文-参与者关系。以前的方法大多忽略了这种关系，但对于实现准确的动作定位。

我们提出了一种新颖的演员-上下文-演员关系网络，通过明确推理演员和上下文之间的高阶关系来改善时空动作定位。

我们在 AVA 和 UCF101-24 数据集上实现了最先进的性能，并具有显着的优势。在提交时，我们的方法在 ActivityNet 排行榜上排名第一 [7]。

2. Related Work

动作识别。动作识别的研究工作一般分为三类：动作分类、时间定位和时空定位。早期的工作主要集中在将短视频片段分类为动作类。 3D-CNN [40, 1, 8]，双流网络 [33, 43, 9] 和 2D-CNN [56, 6, 24] 是该任务采用的三种主要网络架构。虽然在短视频分类方面取得了进展，但主要研究方向也向前推进以理解长视频，这不仅需要识别每个动作实例的类别，还需要定位其开始和结束时间。少数作品 [32, 53, 3, 60] 通过扩展对象检测框架将此问题视为一维时间维度的检测问题。

时空动作定位。最近，时空动作定位问题引起了研究界的极大关注，并引入了视频中所有演员的原子动作被连续注释的数据集（如 AVA [15, 22]）。它将动作检测问题定义为更精细的级别，因为动作实例需要在空间和时间上定位。早期作品使用的典型方法将 R-CNN 检测器应用于 3D-CNN 特征 [15、11、54、50、23]。吴等人。 [47] 表明，通过在原始视频中裁剪和调整大小的演员区域之上运行 3D-CNN 主干获得的演员特征比 RoI 池化演员特征保留了更好的空间细节。然而，它的局限性在于计算成本和推理时间几乎随着参与者的数量线性增加最近的几项工作利用图结构网络来利用上下文信息[35、12、58、38、41、39]。

视频理解的关系推理。关系推理已经在视频理解领域进行了研究 [44, 45, 61, 36, 58, 35, 46, 19, 27, 38]。这是很自然的，因为识别一个演员的动作取决于它与其他演员和对象的关系。周等人。 [61] 扩展了关系网络 [31]，用于对视频帧之间随时间的关系进行建模。Non-local网络 [44] 利用自我注意机制来捕获不同实体之间的长期依赖关系。王等人。 [45] 显示用时空区域图表示视频提高了动作分类的准确性。在时空定位的背景下，有许多传统方法致力于捕捉视频中的时空关系[59,28,37,18]。对于基于深度神经网络的方法，Sun 等人。 [35] 提出了以演员为中心的关系网络，该网络学习聚合演员和场景特征。 Girdhar 等人。 [12] 重新使用 Transformer 网络 [42] 来编码每两个参与者提案之间的成对关系。同时，吴等人。 [46] 使用长期特征库 (LFB) 提供长达 60 秒的时间支持信息，用于计算参与者之间的远程交互。张等人。 [58] 提出明确建模参与者和对象之间的交互。然而，他们的方法侧重于分别建模actor-object 和actor-actor 关系。在推断一个人的动作时，会忽略其他人与上下文对象的交互。换句话说，它们没有明确地建模参与者-上下文-参与者关系。相比之下，我们的方法强调对那些高阶关系进行建模。也许与我们最相似的工作是 [38]，它聚合了多种类型的交互与堆叠单元，类似于 Transformer Networks [42]。尽管如此，虽然这种方法也支持actor-context-actor交互，但它将对象检测结果视为上下文，这需要具有固定对象类别的额外预训练对象检测器，并忽略其他重要类型的上下文（例如背景、对象不是在预定义的类别和某些对象的特定部分）。

3. Method

在本节中，我们提供了我们提出的 Actor-Context-Actor 关系网络 (ACAR-Net) 的详细描述。我们的 ACAR-Net 旨在有效地建模和利用基于基本 actor-actor 和 actor-context 关系的高阶关系，以实现更准确的动作定位。

3.1. Overall Framework

我们首先介绍我们的动作定位整体框架，其中提出的演员-上下文-演员关系（ACAR）建模是关键模块。该框架旨在检测输入视频剪辑中的所有人（我们的实验中为~ 2 秒）并估计他们的动作标签。如图 2 所示，按照最先进的方法 [46、8、49]，该框架是基于一个现成的人体检测器（例如 Faster R-CNN [30]）和一个视频骨干网络（例如 I3D [2]）。然后，建议的 ACAR 模块使用长期 Actor-Context 特征库处理人物和上下文特征，以进行最终动作预测。

具体来说，人物（演员）检测器对输入剪辑的中心帧（即关键帧）进行操作，并获得 N 个检测到的演员。检测到的框被复制到剪辑中关键帧的相邻帧。同时，主干网络从输入视频剪辑中提取时空特征量。我们沿时间维度执行平均池化以节省后续计算成本，这会产生特征图 $X\epsilon \R^{C*H*W}$ 并且 C,H,W 分别是通道、高度和宽度。我们应用 RoIAlign [16]（7*7 空间输出），然后对 N 个参与者特征进行空间最大池化，产生一系列 N 个参与者特征， $A^1,A^2,....,A^N \epsilon \R^C$ ，每个描述了一个感兴趣区域 (RoI) 的时空外观和运动。

提出的 Actor-Context-Actor Relation (ACAR) 模块如图 2 右侧所示。该模块将上述视频特征图 X 和 RoI 特征 $\{ A^i \} ^N_{i=1}$ 作为输入，并输出最终关系推理后的动作预测。 ACAR 模块有两个主要操作。 (1) 它首先编码演员之间的一阶演员-上下文关系和时空上下文的空间位置。基于参与者-上下文关系，我们进一步集成了一个高阶关系推理算子 $HR ^2 O)$ ，用于对一阶关系对之间的交互进行建模，这些一阶关系是以前的方法大多忽略的间接关系。 (2) 我们的推理操作通过 Actor-Context Feature Bank (ACFB) 进行了扩展。该库包含不同时间戳的参与者-上下文关系，并且可以提供比现有的仅包含参与者特征的长期特征库[46]更完整的时空上下文。我们将在以下部分详细说明这两个部分。值得注意的是，我们的高阶关系推理只需要动作标签作为监督。

在这里插入图片描述

图 2. 动作检测框架。使用主干网络处理视频以产生时空上下文特征。对于每个演员提议（人物边界框），我们通过 RoIAlign 从上下文特征中提取演员特征。给定参与者和上下文特征，ACAR-Net 根据他们与上下文的交互计算每两个参与者之间的二阶关系。

3.2. Actor-Context-Actor Relation Modeling

一阶演员-上下文关系编码。我们采用以演员为中心的关系网络（ACRN）[35]作为一个模块，通过组合 RoI 特征 $A^1,A^2,....,A^N$ 与上下文特征 $X$ 来编码一阶演员-上下文关系。更具体地说，它将每个参与者特征 $^i \epsilon \R^C$ 复制并连接到上下文特征 $X\epsilon\R^{C*H*W}$ 的所有 $H * W$ 空间位置，以形成一系列连接的特征图 $\{\tilde{F}^i\}$ $^N_{i = 1}$ $\epsilon\R^{2C*H*W}$ 。每个演员 i 的演员-上下文关系特征然后可以通过将卷积应用到这个连接的特征图 $\tilde{F}^i$ 来编码。

高阶关系推理。我们现在讨论如何根据他们与上下文的一阶交互来计算两个参与者之间的高阶关系。让 $F^i_{x,y}$ 在空间位置 (x,y) 记录演员 $A^i$ 和场景上下文 X 之间的一阶特征。我们建议对一阶参与者-上下文关系之间的关系进行建模，这些关系是编码更多信息场景语义的高阶关系。然而，由于存在大量的actor-context关系特征， $F^i_{x,y}\epsilon\R^{C*1*1}$ ， $i\epsilon\{1,...,N\}$ ， $x\epsilon[1,H]$ ， $y\epsilon[1,W]$ ，它们可能的成对组合的数量通常是压倒性的。因此我们设计a High-order Relation Reasoning Operator $( HR ^2 O) $旨在学习同一空间位置 (x，y) 上的演员-上下文关系对之间的高阶关系，即 $F^i_{x,y}$ 和 $F^j_{x,y}$ 。通过这种方式，所提出的关系推理算子将关系学习限制为二阶参与者-上下文-参与者关系，即两个参与者 i 和 j 可以通过相同的空间上下文关联，表示为 $i\leftrightarrow (x,y) \leftrightarrow j$ ，以帮助估计他们的行动。

我们提出的 $HR ^2 O)$ 将一组一阶参与者上下文关系特征映射 ${F^i\}$ $^N_{i = 1}$ 作为输入。算子输出 ${H^i\}$ $^N_{i = 1}=HR^2O(\{F^i\}^N_{i = 1})$ ，它为所有参与者编码二阶参与者-上下文-参与者关系。算子被建模为堆叠几个修改过的非局部块[44]。对于每个非局部块，卷积用于将输入的一阶参与者上下文关系特征映射 $F ^i$ 转换为与 $F ^i$ 空间大小相同的查询 $Q ^i$ 、键 $K ^i$ 和值 $V ^i$ 嵌入。在我们的实现中，所有特征图的维度都是 d = 512。值得注意的是，卷积的使用不仅对聚合局部信息有用，而且使算子的位置和顺序敏感。注意力向量在每个空间位置分别计算，Actor-Context-Actor Relation 特征 $H ^i$ 由所有值特征 ${V^j\}$ $^N_{j = 1}$ 根据其对应的注意力权重 $Att ^{i,j}$ 的线性组合给出。整个过程可以总结为以下等式，

在这里插入图片描述

在 [46] 之后，我们还在修改后的 non-local 块中添加了层归一化和 dropout，

在这里插入图片描述

其中 $H^i$ 和输入的actor-context 特征 $F^i$ 通过残差相加进行融合，得到actor-context-actor 特征 ${F}’^i$ ，该特征可以由下面的非局部块再次进一步处理。

我们还利用了另一个实例化，它直接从角色特征$ { A^i } ^N_{i=1}$ 和关系网络 [31] 的上下文特征 X 中获得二阶角色-上下文-角色交互特征。更具体地说，我们获得了演员 $A^i$ 、 $A^j$ 和上下文 $V_{x,y}$ 之间的关系特征：

在这里插入图片描述

其中 $[., ., .]$ 表示沿通道维度的连接， $f_{\Theta }(.)$ 是两个卷积层的堆栈。演员 i 的高阶关系计算为与该演员相关的所有关系特征的平均值，

在这里插入图片描述

它还与输入特征融合，通过残差相加获得actor-context-actor特征，即 ${F}'^i = F^i +H^i$ 。当参与者 N 的数量很大时，这种方法的计算量很大，因为特征三元组的数量与 $N^2$ 成正比。

动作分类器。在为所有演员获得演员-上下文-演员特征图 ${{F}’^i\}$ $^N_{i = 1}$ 后，引入最终动作分类器作为具有非线性函数的单个全连接层，以输出每个演员所属的置信度分数到不同的动作类别。

3.3. Actor-Context Feature Bank

为了支持长视频中不同时间段的演员和上下文之间的演员-上下文-演员关系推理，我们提出了一个演员-上下文特征库（ACFB），其中我们存储了过去和未来的上下文信息。这是受到[46]中提出的长期特征库（LFB）的启发。然而我们提供用于长期高阶推理的关系特征，之前的 LFB 只存储演员特征，以方便一阶演员-演员交互识别。

如图 3 所示，剪辑从输入视频中均匀采样（每 1 秒），剪辑 (2s) 可以相互重叠。我们首先按照第 3.2 节中的描述训练一个没有任何特征库的单独 ACAR-Net。整个视频的所有剪辑中每个演员的一阶演员-上下文关系特征 $F^i$ 将由单独预训练的 ACAR-Net 提取并存档为特征库。为避免混淆，我们将这些在库中获得的一阶特征重新表示为 $L^i$ 。

为了在长期参与者上下文特征库的支持下训练一个新的 ACAR-Net 在当前某个时间步 t 进行高阶关系推理，我们检索了所有 M 个存档的参与者上下文关系特征 $\{ L^i \} ^M_{i=1}$ 来自时间窗口$[t-w;t+w] $内的帧。短期特征（在当前时间 t 编码一阶交互）和来自存档库的长期特征之间的 Actor-context-actor 交互可以计算为 ${H^i\}$ $^N_{i = 1}=HR^2O(\{F^i\}^N_{i = 1}，\{L^j\}^M_{j = 1})$ 。请注意， $HR^2 O$ 与之前相同，但自注意力机制被当前和长期参与者上下文关系之间的注意力所取代，其中查询特征 Q 仍然是从短期特征 ${F^i\}$ $^N_{i = 1}$ 计算的，但键和值特征 K 和 V 是使用长期存档特征 $\{ L^i \} ^M_{i=1}$ 计算的，即

在这里插入图片描述

因此，对于当前时间 t 的任何参与者 i，我们的 ACAR-Net 现在能够在更长的时间跨度内推理其与参与者和上下文的更高关系，从而更好地捕捉时间上下文中正在发生的事情实现更准确的动作定位。

4. Experiments on AVA

AVA [15] 是一个用于时空局部化原子视觉动作的视频数据集。对于 AVA，框注释及其相应的动作标签在 430 个 15 分钟视频的关键帧上提供，时间步长为 1 秒。我们默认使用 2.2 版的 AVA 数据集。除了当前的 AVA 数据集，还引入了带有 AVA [15] 样式注释的 Kinetics-700 [1] 视频。新的 AVA-Kinetics 数据集 [22] 包含超过 238k 的独特视频和超过 624k 的注释帧。但是，Kinetics-700 中的每个视频只有一个帧被注释。按照benchmarks的指导方针，我们只评估了 60 个以平均精度 (mAP) 为指标的动作类，使用 0.5 的帧级 IoU 阈值。

4.1. Implementation Details

人体探测器。对于关键帧上的人物检测，我们使用来自 [46] 的人体检测框，这些框由带有 ResNeXt-101-FPN [51, 25] 主干的 Faster R-CNN [30] 生成。该模型在 ImageNet [5] 上使用 Detectron [13] 以及 COCO 人体关键点图像 [26] 进行了预训练，并在 AVA 数据集上进行了微调。

骨干网络。我们使用 SlowFast 网络 [8] 作为定位框架中的主干，并将 res5 的空间分辨率提高 2倍。我们使用 SlowFast R-50 8 *8 实例化（without non-local blocks）进行消融实验。输入是 64 帧剪辑，其中我们对慢速路径采样 T = 8 帧，时间跨度 = 8，对于快速路径采样 T( = 4) 帧。主干在 Kinetics-400 数据集 (预训练的SlowFastR-50 和SlowFastR-101+NL（以下部分）是从SlowFast 的官方存储库下载的。)上进行了预训练。

训练和推理。在 AVA 中，动作分为 3 大类：姿势（例如站立、行走）、人与物体以及人与人的交互。鉴于姿势是互斥的，而交互不是，我们在训练二元交叉熵损失之前使用 softmax 来处理姿势，使用 sigmoid 来处理交互。我们使用批量大小为 32 个剪辑的同步 SGD 端到端训练所有模型（特征库部分除外）。我们以 0.064 的基本学习率训练 35k 次迭代，然后在迭代 33k 和 34k 时将其降低 10 倍。我们在前 6k 次迭代中执行线性预热 [14]。我们使用 $10^{-7}$ 的权重衰减和 0.9 的 Nesterov 动量。我们使用 [46] 中的真实框和预测的人体框进行训练。对于推理，我们将输入帧的较短边缩放为 256 像素，并使用检测到的得分大于 0.85 的人框进行最终动作分类。

4.2. Ablation Study

我们进行消融实验以研究我们框架中不同组件对 AVA v2.2 的影响。

我们框架的基线仅由视频主干（SlowFast R-50）、演员检测器和单层动作分类器（在表 1 中表示为“基线”）组成。

在这里插入图片描述

表1. AVA 数据集的消融研究。我们框架的“基线”仅由视频主干、演员检测器和单层动作分类器组成。 $HR^2 O$ ：高阶关系推理算子。 ACFB：演员上下文特征库。

关系建模 - 比较。为了展示我们的actor-context-actor关系推理模块的有效性，我们与之前几种利用关系推理基于我们的基线进行动作定位的方法进行了比较。在这里，我们只专注于验证关系建模的效果，因此我们在本研究中禁用了长期支持。我们调整了他们的推理模块，使所有方法都使用与我们的 ACAR-Net 相同的基线，以便仅公平地比较关系推理的影响。我们评估专注于学习参与者-上下文关系的 ACRN； STO [46]（LFB 的降级版本），仅捕获当前短片中的演员互动； AIA (w/omemory)[38] 聚合了actor-actor和actor-object交互。如表 1a 中所列，我们提出的演员-上下文-演员关系建模（表 1a 中的“基线+ $HR^2 O$ ”）显着优于比较方法。我们观察到具有参与者和上下文关系的 AIA 比仅对一种类型的一阶关系建模的 ACRN 和 STO 表现更好，但我们基于高阶关系建模的方法在相当大的程度上优于所有比较方法。

我们进一步将不同关系推理模块的性能分解为 AVA 数据集的三大类，它们是姿势（例如站立、坐下、行走）、人与物体交互（例如阅读、吃东西、开车）和人与人交互。例如谈话、倾听、拥抱）。图 4 在这些主要类别上比较了不同方法相对于基线的增益。我们可以看到，与姿势类别相比，我们的 $HR^2 O$ 在两个交互类别上提供了更多的性能提升，这与我们对演员和上下文之间的间接关系进行建模的动机是一致的。一旦配备了 ACFB，我们的框架也可以进一步改进姿势类别。

在这里插入图片描述

图 4.在 AVA 数据集的三个主要类别上相对于基线的 mAP 增益。我们的 ACAR 始终优于其他关系推理方法，并在两个交互类别上实现了更大的性能提升。

在这里插入图片描述

图 5. 用于动作检测的不同关系建模方法的注意力图比较。我们的方法能够关注与标记为红色的感兴趣的参与者（执行“listen to”）和绿色框中的支持参与者（执行“read”）相关的上下文区域（一些文档），而其他方法无法达到类似的效果。

最后，我们将我们的 ACAR 与 AVA 中现有的关系推理方法进行对比。我们在图 5 中的示例关键帧上可视化来自不同推理模块的注意力图。不需要object proposals，ACAR 能够定位自由形式的上下文区域，以间接建立两个演员之间的关系（感兴趣的演员正在听配角阅读报告）。相比之下，STO 和 AIA 的注意力权重分布更加多样化，没有明确的重点。请注意，我们没有显示 ACRN 的注意力图，因为它为所有上下文区域分配了相同的权重。

Component Analysis成分分析。为了验证我们的设计，我们首先消除了 ACAR 不同组件的影响，如表 1b 所示。我们可以观察到 HR 2 O 和 ACFB 都比基线带来了显着的性能提升。

$HR^2 O$ 设计。我们在表 1c 中的基线之上测试了高阶关系推理算子的不同实例。我们修改后的non-local（表示为“NL”）机制比简单设计 $HR^2 O$ 作为平均函数（表示为“Avg”）更好，即 $H^i = \frac{1}{N}\sum _i F ^i$ 。此外，第 3.2 节中描述的关系网络（RN）的实例化也可以正常工作。尽管如此，修改后的 non-local attention 在计算上比具有特征三元组的 RN 更有效，并且具有更好的性能。

关系排序。推理actor-context-actor关系有两种可能的顺序：1）首先聚合actor-actor关系，或2）首先编码actor-context关系。请注意，我们的 ACAR-Net 采用了后者。在将上下文特征合并到我们的基线中之前，我们通过在演员特征和修改后的非局部注意力之间执行自我关注来实现前一个顺序。表 1d 中的结果验证了应该更早地聚合上下文信息以进行更好的关系推理。

$HR^2 O$ 深度。在表 1e 中，我们观察到在 HR 2 O 中堆叠两个修改过的非局部块比单层版本具有更高的 mAP，但再添加一个非局部块会产生更差的性能，可能是由于过拟合。因此，我们采用两个非本地块作为默认设置。

演员上下文特征库。在这组实验中，我们验证了所提出的 ACFB 的有效性。由于内存限制，我们将“窗口大小” 2w + 1 设置为 21s，预计更长的时间支持会表现更好[46]。如表 1f 所示，通过 ACFB 添加长期支持显着改善了基线（ $HR^2 O 27.83 \rightarrow HR^2 O + ACFB 28.84$ ）。我们还测试了用长期特征库（LFB）[46]（表示为“ $HR^2 O+LFB$ ”）替换我们框架中的 ACFB。但是，LFBeven 无法匹配基线性能。这种下降可能是因为 LFB 仅编码“零阶”演员特征，无法从相邻帧提供足够的关系信息来辅助交互识别。

4.4. Qualitative Results

我们提出的 ACAR 在时空特征上完全卷积操作，这允许我们的高阶关系推理算子生成的actor-context-actorrelation maps ${Att ^{i,j}\}$ 可视化。如图 6 所示，前两列包括关键帧以及来自同一剪辑的相应关系图，最后三列显示表示与演员的交互和来自相邻剪辑的上下文的关系图。我们可以观察到，参与区域通常包括感兴趣的演员、配角的身体部位（即头部、手和手臂）以及与演员互动的物体。以左侧的第一个示例为例。绿色的配角 A j 正在从感兴趣的红色演员 A i 中取出一个包裹。我们的 ACAR-Net 以参与者-上下文-参与者关系的形式很好地编码了此类信息：突出显示了两个参与者的包裹、手和手臂。

在这里插入图片描述

图 6.AVA 上演员-上下文-演员注意力图的可视化。感兴趣的演员用红色标记，支持演员用绿色标记。热图说明了上下文区域的注意力权重 $Att ^{i,j}$ 从演员-上下文-演员关系推理。我们观察到我们的模型已经学会关注演员和上下文之间的有用关系，并且上下文充当连接演员的桥梁。

5. Experiments on UCF101-24

UCF101-24 是 UCF101 [34] 的子集，包含 24 个动作类的 3,207 个视频的时空注释。遵循先前方法 [20, 54] 的评估设置。我们对第一次分割进行实验，并报告 IoU 阈值为 0.5 的 frame-mAP。

实施细节。我们还使用在 Kinetics-400 上预训练的 SlowFast R-50 作为视频主干，并采用 [21] 中的人员检测器。慢速路径的时间采样变为 8*4 帧，快速路径将 32 个连续帧作为输入。

对于训练，我们以 0.002 的基本学习率对所有模型进行 5.4k 迭代的端到端训练，然后在迭代 4.9k 和 5.1k 时将其降低 10 倍。我们在训练计划的第一季度进行线性热身。我们只使用 ground-truth 框进行训练，并使用检测器给出的所有框进行推理。其他超参数与 AVA 上的实验类似。

结果。如表5所示，ACAR以相当大的优势超过了强基线，这再次表明了高阶关系推理的重要性。

在这里插入图片描述

表 5.与 UCF101-24 上的先前工作的比较。我们分别评估frame-map on split1.V and F refer to visual frames and optical flow respectively.

6. Conclusion

鉴于在涉及多个参与者和大量上下文对象的时空动作定位任务中遇到的现实场景的高度复杂性，我们观察到对更复杂形式关系推理的需求，目前经常错过识别动作的重要提示。因此，我们提出了 Actor-Context-Actor 关系网络，用于基于参与者与上下文的交互来显式地建模参与者之间的高阶关系。对动作检测任务的大量实验表明，我们的 ACAR-Net 优于利用关系推理的现有方法，并在时空动作定位的几个具有挑战性的基准上取得了最先进的结果。

察到对更复杂形式关系推理的需求，目前经常错过识别动作的重要提示。因此，我们提出了 Actor-Context-Actor 关系网络，用于基于参与者与上下文的交互来显式地建模参与者之间的高阶关系。对动作检测任务的大量实验表明，我们的 ACAR-Net 优于利用关系推理的现有方法，并在时空动作定位的几个具有挑战性的基准上取得了最先进的结果。