TPAMI 2024 | FGAHOI：用于人体-物体交互检测的细粒度锚点

最新推荐文章于 2024-09-04 10:56:59 发布

小白学视觉

最新推荐文章于 2024-09-04 10:56:59 发布

阅读量894

点赞数 29

文章标签： TPAMI 深度学习顶刊论文论文解读

本文链接：https://blog.csdn.net/qq_42722197/article/details/140307622

版权

题目：FGAHOI: Fine-Grained Anchors for Human-Object Interaction Detection

FGAHOI：用于人体-物体交互检测的细粒度锚点

作者：Shuailei Ma; Yuefeng Wang; Shanze Wang; Ying Wei

源码链接： https://github.com/xiaomabufei/FGAHOI

摘要

人类-对象交互（HOI）作为计算机视觉中的一个重要问题，需要定位人-对象对并识别它们之间的交互关系。与单个对象实例相比，HOI实例在空间、尺度和任务上具有更大的跨度，使其检测更容易受到嘈杂背景的干扰。为了减轻嘈杂背景对HOI检测的干扰，有必要考虑输入图像信息以生成细粒度锚点，然后利用这些锚点指导检测HOI实例。然而，存在以下挑战：i) 如何从包含复杂背景信息的图像中提取关键特征仍然是一个开放性问题。ii) 如何在语义上对齐提取的特征和查询嵌入也是一个难题。在本文中，我们提出了一种新颖的基于变换器的端到端框架（FGAHOI），以缓解上述问题。FGAHOI包括三个专用组件，即多尺度采样（MSS）、层次空间感知合并（HSAM）和任务感知合并机制（TAM）。MSS从嘈杂背景中提取不同尺度的HOI实例的人类、对象和交互区域的特征。HSAM和TAM依次在层次空间和任务视角中对提取的特征和查询嵌入进行语义对齐和合并。与此同时，设计了一种新颖的训练策略——分阶段训练策略，以减少FGAHOI执行过于复杂任务所造成的训练压力。此外，我们提出了两种衡量HOI检测难度的方法和一个新的数据集，即HOI-SDC，针对HOI实例检测的两个挑战（人-对象对中不均匀分布区域和长距离视觉建模人-对象对）。在三个基准测试中进行了实验：HICO-DET、HOI-SDC和V-COCO。我们的模型优于现有的最先进的HOI检测方法，广泛的消融揭示了我们所提出贡献的优点。

关键词

FGAHOI
细粒度锚点
人类-对象交互
嘈杂背景
语义对齐

I. 引言

人类-对象交互（HOI）检测作为目标检测的下游任务，由于其巨大的应用潜力，最近受到了越来越多的关注。为了成功进行HOI检测，需要理解人类活动，这些活动在此任务中被抽象为一组[ \text{human, object, action} ]三元组，要求对视觉场景的语义信息有更深入的理解。没有HOI检测，机器只能将图像解释为对象边界框的集合，即AI系统只能获取到例如“一个人在自行车上”或“自行车在角落里”这样的信息，而不能识别出“一个人骑自行车”。

纵观过去和现在，现有的HOI检测方法大致可以分为两类，即两阶段和一阶段方法。传统的两阶段方法，作为一种直观的方法，利用现成的对象检测器来检测人类和对象实例，然后使用从定位区域提取的视觉特征来识别动作类别。为了充分利用视觉特征，一些方法分别提取人-对象对的视觉特征和空间信息，并在多流架构中将它们融合以预测动作。同时，一些方法采用现有的姿势估计方法来提取姿势信息，并将其与其他特征融合以预测动作类别。此外，一些工作利用图神经网络提取人与对象之间的复杂语义关系。然而，两阶段方法的主要困难在于有效融合人-对象对和复杂语义信息。此外，由于固定检测器和其他一些组件（如姿势估计等）的限制，两阶段方法只能达到次优解。

为了实现高效率，一阶段方法利用人-对象对之间的交互点同时预测人类和对象的偏移向量以及动作类别，被提出来并行检测人-对象对并识别交互关系。然而，当图像中的人类和对象彼此相距甚远时，这些方法会受到模糊语义特征的干扰。一阶段方法直到Detection Transformer (DETR)的出现以及QPIC将其应用于HOI检测才受到较多关注。随后，许多基于变换器的工作尝试使用不同的编码器-解码器结构和主干模型来解决HOI检测问题。

与对象实例相比，HOI实例在空间、尺度和任务上具有更大的跨度。在大多数HOI实例中，人与对象之间存在一定的距离，并且它们的尺度变化很大。与简单的对象分类相比，进行交互分类时需要考虑人-对象对之间的更多信息，而不仅仅是人类和对象的特征。因此，检测更容易受到嘈杂背景的干扰。然而，大多数最近的工作直接使用对象检测框架通过简单地添加交互分类头来进行HOI检测，忽略了这些问题。受利用参考点指导解码过程的启发，我们提出利用细粒度锚点来指导HOI实例的检测，并保护其免受嘈杂背景的干扰。为了为各种HOI实例生成细粒度锚点，显然需要考虑输入图像特征。然而，由此产生了两个不可避免的挑战：i) 从包含嘈杂背景信息的图像中提取关键特征是困难的。ii) 如何在语义上对齐并合并提取的特征与查询嵌入也是一个开放问题。

在本文中，我们提出了一种新颖的基于变换器的HOI检测模型，即FGAHOI：细粒度锚点用于人类-对象交互检测（如图1所示）。FGAHOI利用多尺度采样机制（MSS）从嘈杂背景信息的图像中提取关键特征，用于变化的HOI实例。基于采样策略和由相应查询嵌入生成的初始锚点，MSS能够为每个HOI实例提取人类、对象和交互区域的层次空间特征。此外，层次空间感知（HSAM）和任务感知合并机制（TAM）被用来依次在层次空间和任务视角中对提取的特征与查询嵌入进行语义对齐和合并。在合并过程中，提取的特征根据合并过程的交叉注意力权重与查询嵌入对齐。随后，TAM利用动态开关在任务视角中合并输入特征和查询嵌入，这些开关可以根据需要切换开启和关闭。

实验结果表明，当需要更复杂的任务需求时，端到端训练方法难以使基于变换器的模型达到最优性能。受LTR的分阶段训练启发，我们为FGAHOI提出了一种新颖的分阶段训练策略。在训练过程中，我们逐步添加模型的重要组件，以明确每个阶段模型的训练方向，从而最大化模型训练成本的节约。

据我们所知，尚无衡量检测HOI实例难度的方法。我们研究了检测人-对象对的两个难点，即人-对象对中不均匀分布区域和人-对象对的长距离视觉建模。在本文中，我们提出了两种衡量方法，并为这两个挑战提出了一个新的数据集（HOI-SDC）。HOI-SDC消除了其他因素（如某些HOI类别的训练样本太少，交互动作太复杂等）对模型训练的影响，专注于这两个难点的模型。我们的贡献可以总结为四点：

我们提出了一种新颖的基于变换器的人类-对象交互检测器（FGAHOI），利用输入特征生成细粒度锚点，以保护HOI实例的检测免受嘈杂背景的干扰。
我们提出了一种新颖的训练策略，分阶段训练模型的每个组件，以明确每个阶段的训练方向，以最大化训练成本的节约。
我们提出了两种衡量HOI检测难度的方法，并为检测HOI实例的两个挑战（人-对象对中不均匀分布区域和人-对象对的长距离视觉建模）提出了数据集HOI-SDC。
我们在三个基准测试：HICO-DET、HOI-SDC和V-COCO上进行了广泛的实验，证明了所提出的FGAHOI的有效性。具体来说，FGAHOI在所有现有的最先进方法中都有显著的性能提升。

III. 方法

在第三-A节中，我们展示了FGAHOI的总体架构。然后，我们在第三-B节描述了多尺度特征提取方法。我们在第三节-第一节中介绍了多尺度抽样策略。第III-C2节、III-C3节和III-C4节分别提出了层次化的空间感知、任务感知的合并机制和解码过程。在第三-D节中，我们介绍了HOI检测头的体系结构。在第三-E节中，说明了分阶段训练策略、损失计算和推理过程。

A. 总体架构

我们提出的FGAHOI的整体架构如图2所示。给定一张图片 $\in \mathbb{R}^{H \times W \times 3}$ ，FGAHOI首先使用分层的骨干网络提取多尺度特征 $Z_i \in \mathbb{R}^{H_{\frac{4}{2^i}} \times W_{\frac{4}{2^i}} \times 2^{i}C_s}, i = 1, 2, 3$ 。然后，多尺度特征通过1x1卷积从维度 $C_s$ 投影到维度 $C_d$ 。在展平之后，多尺度特征被连接成 $N_s$ 个具有 $C_d$ 维度的向量。随后，这些向量与附加的位置编码 $\in \mathbb{R}^{N_s \times Cd}$ 一起输入到可变形变换器编码器中，该编码器由一系列堆叠的可变形编码器层组成，用于编码语义特征。编码后的语义特征 $\in \mathbb{R}^{N_s \times Cd}$ 随后被获取。在解码过程中，内容 $C$ 和位置 $P$ 嵌入都是一组可学习的向量集合 $\{v_i | v_i \in \mathbb{R}^{cd}\}^{N_q}_{i=1}$ 。

位置嵌入 $P$ 首先通过线性层生成初始锚点 $\in \mathbb{R}^{N_q \times 2}$ 。然后，位置 $P$ 、内容 $C$ 嵌入、初始锚点 $A$ 和编码特征 $M$ 同时输入到解码器 $F_{decoder}(\cdot, \cdot, \cdot, \cdot)$ ，这是由一系列堆叠的解码器层组成的。在每个解码器层中，初始锚点首先利用多尺度采样策略来采样与内容嵌入相对应的多尺度特征。采样的特征帮助通过层次空间感知和任务感知合并机制生成细粒度锚点和相应的注意力权重。通过细粒度锚点、注意力权重和可变形注意力，将查询嵌入 $Q$ 转换为HOI嵌入 $\{h_i | h_i \in \mathbb{R}^{cd}\}^{N_q}_{i=1}$ 。最终，HOI检测器利用HOI嵌入 $H$ 和初始锚点来预测HOI实例 $\langle bh, bo, co, cv \rangle$ ，其中 $bh, b o, co, c v$ 分别代表人类框坐标（x, y, w, h）、对象框坐标、对象类别和动词类别。

B. 多尺度要素抽取器

高质量的视觉特征是成功HOI检测的先决条件。为了提取具有长距离语义信息的多尺度特征，FGAHOI利用了多尺度特征提取器，该提取器由分层骨干网络和可变形变换器编码器组成，用于提取特征，公式如下：
$F_{encoder}(F_{flatten}(\phi(x)), p, s, r, l) \in \mathbb{R}^{N_s \times Cd},$
其中 $F_{encoder}(\cdot)$ , $F_{flatten}(\cdot)$ 和 $\phi(\cdot)$ 分别表示编码器、展平操作和骨干网络。 $p$ 是位置编码， $s$ 是多尺度特征的空间形状， $r$ 代表有效比例， $l$ 表示与多尺度特征相对应的级别索引。分层骨干网络是灵活的，可以由任何卷积神经网络和变换器骨干网络组成。然而，CNN在捕获非局部语义特征（例如人-物之间的关系）方面表现不佳。在本文中，我们主要使用Swin Transformer的tiny和large版本来增强特征提取器提取长距离特征的能力。

C. 为什么FGAHOI的解码效果更好？

在解码过程中，细粒度锚点可以被视为一种位置先验，它让解码器专注于感兴趣区域，并直接指导解码器将关键的语义信息传递给内容嵌入，这些嵌入用于预测HOI实例的所有元素。因此，细粒度锚点在HOI检测中扮演着两个至关重要的角色：

i) 细粒度锚点直接决定了从输入特征到内容嵌入所获得的信息是针对实例的关键信息还是噪声背景信息。
ii) 细粒度锚点决定了查询嵌入与输入场景的多尺度特征之间的对齐质量。这两者都是解码结果质量的关键因素。

现有的方法直接使用查询嵌入基于初始锚点生成细粒度锚点，而没有考虑输入场景的多尺度特征和查询嵌入与输入特征之间的语义对齐。我们的FGAHOI提出了一种新颖的细粒度锚点生成器，包括多尺度采样、层次空间感知合并和任务感知合并机制，如Fig. 3所示。该生成器充分利用初始锚点、多尺度特征和查询嵌入，为多样化的输入场景生成合适的细粒度锚点，并在不同输入场景和查询嵌入之间对齐语义信息。

FGAHOI解码过程的公式化定义如下：

$\text{Defattn}(\text{Task}(\text{Hier Spatial}(\{x_i^s\}, C_u), C_u), M, C_u),$

其中 $C_u$ 是由位置嵌入更新后的内容嵌入， $\text{Defattn}$ 表示可变形注意力， ${x_i^s\}$ 表示第 $i$ 级采样的特征。 $M$ 是编码后的输入特征。

1)多尺度采样机制：输入场景中包含的HOI实例通常大小不一，有些实例可能占据了输入场景的大部分区域，而其他一些可能只占几个像素点。FGAHOI旨在检测场景中的所有实例，无论其大小。因此，在使用初始锚点采样多尺度特征时，主要用于检测小尺寸实例的浅层特征，采样策略仅在初始锚点周围采样一小范围的特征。相比之下，主要用于检测大尺寸实例的深层特征，采样策略会在初始锚点周围采样一个大范围的特征。如图3(b)所示，在生成器中，编码的特征首先重塑成原始形状。基于初始锚点，生成器利用采样策略采样多尺度特征如下：

$x_i^s = F_{\text{sample}}(\text{reshape}(M)_i, A, \text{size}_i, \text{bilinear}),$

其中 $\text{size}_i$ （ $i = 0, 1, 2$ ）表示第 $i$ 级特征的采样大小。 $M$ 是编码后的输入特征。 $A$ 是初始锚点。受[57]的启发，我们在采样策略中采用了双线性插值。

2)层次空间感知合并机制（HSAM）：为了更好地利用采样特征的层次空间信息，使内容嵌入与采样特征对齐，我们提出了一种新颖的层次空间感知合并机制。该机制利用内容嵌入提取层次空间信息并合并采样特征，如图3©所示。内容嵌入首先通过位置嵌入和多头自注意力机制更新如下：

$C_u = C + F_{\text{MHA}}(C + P)W^q, (C + P)W^k, C W^v,$

其中 $W^q$ , $W^k$ 和 $W^v$ 分别表示自注意力机制中查询、键和值的参数矩阵。 $F_{\text{MHA}}(\cdot)$ 是多头注意力机制。 $C$ 和 $P$ 分别代表内容和位置嵌入。然后，更新后的内容嵌入被用来合并采样特征，公式如下：

$x_i^m = F_{\text{concat}}(head_1, ..., head_{N_H}) W^O,$

其中 $x_i^m$ 表示第 $i$ 级采样特征的合并特征。 $C_u$ 是由位置嵌入更新后的内容嵌入。 $W^O$ 表示多头连接的参数矩阵。 $W_q^n$ , $W_k^n$ 和 $W_v^n$ 分别表示第 $n$ 个注意力头的查询、键和值的参数矩阵。 $F_{\text{concat}}$ 是连接操作。 $d_k = \frac{N_{hd}}{N_H}$ , $N_{hd}$ 是隐藏维度， $N_H$ 是注意力头的数量。

在根据空间信息合并每个尺度的采样特征之后，每个尺度的合并特征首先被连接在一起，如下所示：

$X_m = F_{\text{concat}}(x_0^m, ..., x_2^m) \in \mathbb{R}^{B \times N_q \times N_L \times N_{hd}},$

其中 $N_L$ 是多尺度的数量， $x_i^m$ 表示第 $i$ 级采样特征的合并特征， $X_m$ 是由尺度感知合并机制合并的连接多尺度特征，如下所示：

$X_u = F_{\text{concat}}(head_1, ..., head_h) W^O,$

其中 $X_u$ 是用于更新内容嵌入的合并多尺度特征。

3)任务感知合并机制（TAM）：考虑到多样化的HOI实例，我们提出了任务感知合并机制，用于在任务感知视角中融合合并的多尺度特征和内容嵌入，并使内容嵌入与合并特征对齐，如图3(d)所示。它利用合并的多尺度特征和内容嵌入生成动态开关，以在合并过程中选择适当的通道。首先将内容嵌入和多尺度信息融合在一起，公式如下：

$F_{\text{stack}}(C_u, X_u) \in \mathbb{R}^{B \times N_q \times (2 \times N_{hd})}.$

其中 $C_u$ 是由位置嵌入更新后的内容嵌入， $X_u$ 是合并的多尺度特征。随后，我们使用交叉注意力机制更新这些特征，如下所示：

$X_{\text{switch}} = F_{\text{concat}}(head_1, ..., head_h) W^O,$

其中 $head_n = \text{Softmax}\left(\frac{(C_uW^q_n) \cdot (XW^k_n)^T}{\sqrt{d_k}}\right) (XW^v_n)$ .然后，使用生成的信息获得合并的动态开关，公式如下：

$\text{Switch}_\gamma = \text{Fnormalize}(\text{Fmlp}(X_{\text{switch}})) \in \mathbb{R}^{B \times N_q \times 2 \times 2},$

其中 $\text{Switch}_\gamma$ 是合并特征的 $\gamma$ 维的动态开关。 $\text{Fhsigmoid}(\cdot)$ 和 $\text{Fmlp}(\cdot)$ 分别表示硬sigmoid和前馈网络，前馈网络由两层线性层和一层Relu激活层组成。受[58]的启发，合并机制设计如下：

$U_\gamma = \max(\text{Switch}_\gamma {i,0} \odot X_{u_\gamma} + \text{Switch}_\gamma{i,1}) + C_{u_\gamma},$

其中 $U_\gamma$ 是通过合并多尺度特征更新的内容嵌入的 $\gamma$ 特征。

4)使用细粒度锚点的解码：如图3(e)所示，更新后的内容嵌入被用来生成细粒度锚点和注意力权重。根据线性层、重塑操作和softmax函数，公式如下：

$Flin_res ( U ) ∈ R B × N q × N H × N L × N A × 2 , A = \text{Flin\_res}(U) \in \mathbb{R}^{B \times N_q \times N_H \times N_L \times N_A \times 2},$

$Flin_res_soft ( U ) ∈ R B × N q × N H × N L × N A , W = \text{Flin\_res\_soft}(U) \in \mathbb{R}^{B \times N_q \times N_H \times N_L \times N_A},$

如图3(a)所示，细粒度锚点和注意力权重被用来帮助从输入场景的编码特征中提取语义特征到内容嵌入，公式如下：

$P_q = \sum_{n=1}^{N_H} W_n \left( \sum_{l=1}^{N_L} \frac{W_l^{(n)} q_k \cdot W'_n x_l}{A_{n}^{qk}} \right),$

其中 $P_q$ 是用于将第 $q$ 个内容嵌入转换为 HOI 嵌入的提取语义信息。 $A_{nqk}$ 和 $W_{lnqk}$ 分别代表第 $n$ 个注意力头对于第 $q$ 个查询嵌入的 $k$ 个细粒度锚点和相应的注意力权重。 $W_n$ 和 $W'_n$ 是第 $n$ 个注意力头的参数矩阵。 $N A$ 是每个尺度上每个注意力头中的细粒度锚点数量。

D. HOI探测头

FGAHOI利用一个简单的HOI检测头来预测HOI实例的所有元素。如图4所示，检测头利用HOI嵌入和初始锚点来定位人类和对象框。

在这个过程中，每个初始锚点作为相应人-对象对的边界框的基点，公式如下：
$F_{mlp}(H)[..., :2] + \text{initial anchor} \in \mathbb{R}^{N_q \times 4},$
$F_{mlp}(H)[..., :2] + \text{initial anchor} \in \mathbb{R}^{N_q \times 4},$
$F_{linear}(H) \in \mathbb{R}^{N_q \times \text{numo}},$
$F_{linear}(H) \in \mathbb{R}^{N_q \times \text{numv}},$
其中 $F_{mlp}$ 表示由三个线性层和三个relu激活层组成的前馈网络。 $F_{linear}$ 表示线性层。 $\text{numo}$ 和 $\text{numv}$ 分别是对象和动作类别的数量。 $H$ 表示HOI嵌入。

E. 训练和推理

Stage-Wise Training: 受分阶段训练方法启发，我们将FGAHOI的基线网络（不带任何合并机制的FGAHOI）以端到端的方式进行训练。然后，我们在训练好的基线网络上逐步添加合并机制进行另一段短时间的训练。在这个过程中，训练好的基线网络的参数被用作预训练参数，并且在训练过程中没有参数被固定。
Loss Calculation: 受HOI-Trans、QPIC、CDN和QAHOI基于集合的训练过程的启发，我们首先使用匈牙利算法进行二分图匹配，将每个真实标注与最佳匹配的预测结果进行匹配。对于后续的反向传播，我们建立匹配预测和匹配真实标注之间的损失。公式如下：
$\lambda_o L_{o_{\text{cls}}} + \lambda_v L_{v_{\text{cls}}} + \sum_{k \in (h,o)} \lambda_b L_{k_{\text{box}}} + \lambda_{GIoU} L_{\text{GIoU}},$
其中 $L_{o_{\text{cls}}}$ 和 $L_{v_{\text{cls}}}$ 分别代表对象类别和动作类别的损失，我们分别使用了修改后的焦点损失函数和sigmoid焦点损失函数。 $L_{k_{\text{box}}}$ 是边界框回归损失，由L1损失组成。 $L_{\text{GIoU}}$ 表示交并比损失，与QPIC中的功能相同。 $\lambda_o$ 、 $\lambda_v$ 、 $\lambda_b$ 和 $\lambda_{GIoU}$ 是调整每个损失权重的超参数。
Inference: 推理过程是将HOI检测头的输出组合成HOI三元组。形式上，第 $i$ 个输出预测生成为 $\langle bh_i, bo_i, \text{argmax}_k c_{oi}(k) \rangle$ 。HOI三元组的得分 $c_{oi}$ 由动作 $cv_i$ 和对象分类 $co_i$ 的得分组合而成，公式化定义为 $c_{oi} = cv_i \cdot co_i$ 。

IV. 数据集

人类-对象对存在两个主要难点：i) 人类和对象在人-对象对中不均匀的区域分布。ii) 人-对象对之间过大的距离。据我们所知，尚无相关指标来衡量这两个难点。在本文中，我们提出了两个度量标准 AR 和 LR 来衡量这两个难点。然后，我们提出了这两个难点对应的两个新挑战。此外，我们提出了一个新的数据集 HOI-SDC。数据选自 HAKE-HOI，该数据集重新分割自 HAKE 并提供 110K+ 图像。HAKE-HOI 有 117 个动作类别、80 个对象类别和 520 个人-对象类别。

A. HOI-UDA

我们提出了一种新的度量标准，用于衡量人-对象对中区域分布不均匀的挑战，公式如下：
$\frac{\text{Area}_h \cdot \text{Area}_o}{\text{Area}_{\text{hoi}}^2},$
其中 Area_h、Area_o 和 Area_hoi 分别表示人类、对象和 HOI 实例的面积。我们将 HAKE-HOI 中的所有实例量化为十个区间，并在表 I 的第二行和第五行中统计每个区间的实例数量。为了更好地评估模型检测人-对象对中区域分布不均匀的 HOI 的能力，我们特别选择了测试集中 IMIUDA 为 0 的 24737 个 HOI 实例。

B. HOI-LDVM

我们提出了一种新的度量标准，用于衡量人-对象对长距离视觉建模的挑战，公式如下：
$\frac{L_h + L_o}{L_{\text{hoi}}},$
其中 L_h、Lo 和 Lhoi 分别表示我们定义的人类、对象和 HOI 实例的大小。实例在表 I 的第三行和第六行中量化。为了更好地评估模型检测人-对象对中长距离的 HOI 的能力，我们特别选择了测试集中 IMILDVM 从 0 到 6 的 24737 个 HOI 实例。

C. HOI-SDC

为了避免模型的训练过程受到一些实例数量非常少的 HOI 类别的影响，我们从双挑战的训练集中移除了一些包含非常少量实例的 HOI 类别和没有交互的 HOI 类别。最终，共有 321 个 HOI 类别、74 个对象类别和 93 个动作类别。训练集和测试集分别包含 37,155 和 9,666 张图像。HOI 实例的详细分布如表 I 所示。

V. 实验

A. 数据集

实验在三个 HOI 数据集上进行：HICO-DET、V-COCO 和我们提出的 HOI-SDC 数据集。

HICO-DET：有 80 个对象类别、117 个动作类别和 600 个人-对象类别。HICO-DET 提供了 47,776 张图像，包含 151,276 个 HOI 实例，其中包括 38,118 张图像，有 117,871 个标注实例的人-对象对在训练集中，以及 9658 张图像，有 33,405 个标注实例的人-对象对在测试集中。根据这些 HOI 类别的数量，数据集中的 600 个人-对象类别被分为三类：全部（所有 HOI 类别）、稀有（138 个类别，每个类别少于 10 个实例）和非稀有（462 个类别，每个类别有超过 10 个实例）。按照 HICO 的方式，我们还考虑了两种不同的评估设置（结果如表 II 所示）：(1) 已知对象设置：对于每个 HOI 类别（例如“放风筝”），检测只评估包含目标对象类别（例如“风筝”）的图像。难点在于定位 HOI（例如人-风筝对）和区分交互（例如“放”）。(2) 默认设置：对于每个 HOI 类别，检测评估整个测试集，包括包含和不包含目标对象类别的图像。这是一个更具挑战性的设置，因为我们需要区分背景图像（例如没有“风筝”的图像）。

V-COCO：包含 80 个不同的对象类别和 29 个动作类别，由 MS-COCO 数据集开发而来，包括 4946 张图像用于测试子集，2533 张图像用于训练子集，2867 张图像用于验证子集。对象被分为两种类型：“对象”和“工具”。

B. 指标

按照标准评估，我们使用角色平均精度来评估预测的 HOI 实例。如果检测到的边界框与同一类别的真实标注边界框的交并比（IOU）大于 0.5，则认为对象检测是真正的正例。在 HOI 检测中，我们需要预测人-对象对。如果人-对象对中的人的重叠 IOUh 和对象的重叠 IOUo 都超过 0.5，即 min(IOUh, IOUo) > 0.5，则声明为真正的正例。

C. 实施详情

视觉特征提取器由 Swin Transformer 和可变形变换器编码器组成。对于 Swin-Tiny 和 Swin-Large，第一阶段的特征图维度分别设置为 Cs = 96 和 Cs = 192。我们预先在 ImageNet-1k 数据集上训练 Swin-Tiny。Swin-Large 首先在 ImageNet-22k 数据集上预训练，然后在 ImageNet-1k 数据集上微调。然后使用这些权重对 FGAHOI 进行微调，以进行 HOI 检测任务。编码器和解码器层的数量都设置为 6（NLayer = 6）。查询嵌入的数量设置为 300（Nq = 300），并且变换器中嵌入的隐藏维度设置为 256（Cd = 256）。在后处理阶段，根据对象置信度选择前 100 个 HOI 实例，并使用 δ=0.5 通过组合 IOU 过滤 HOI 实例。遵循 Deformable-DETR，使用 AdamW 优化器。提取器和其他组件的学习率分别设置为 10^-5 和 10^-4。我们使用 8 RTX 3090 来训练模型（QAHOI & FGAHOI）与 Swin-Tiny。对于带有 Swin-Large*+ 的模型，我们使用 16 RTX 3090 进行训练。

D. 与最先进的比较

1)HICO-DET: 我们在 HICO-DET 数据集上将 FGAHOI 与最先进的两阶段和一阶段方法进行比较，并在表 I 中报告结果。FGAHOI 在所有设置中都优于最先进的方法。与最先进的两阶段方法 SCG 相比，FGAHOI 与 Swin-Large*+ 骨干网络在默认全设置中 mAP 显著提高了 5.85%，在默认稀有设置中提高了 5.99%，在默认非稀有设置中提高了 5.80%，在已知对象全设置中提高了 4.56%，在已知对象稀有设置中提高了 4.75%，在已知对象非稀有设置中提高了 4.52%。为了公平比较，我们使用相同的机器来复现 QAHOI（如表 II 所示 QAHOI®）。与最先进的一阶段方法 QAHOI 相比，FGAHOI 在所有骨干网络的所有设置中都有所提高。对于 Swin-Tiny 骨干网络，FGAHOI 在默认全设置中 mAP 显著提高了 2.27%，在默认稀有设置中提高了 2.02%，在默认非稀有设置中提高了 2.55%，在已知对象全设置中提高了 2.42%，在已知对象稀有设置中提高了 1.11%，在已知对象非稀有设置中提高了 2.79%。此外，FGAHOI 与 Swin-Large*+ 骨干网络在默认全设置中 mAP 显著提高了 1.75%，在默认稀有设置中提高了 1.49%，在默认非稀有设置中提高了 1.82%，在已知对象全设置中提高了 1.70%，在已知对象稀有设置中提高了 0.92%，在已知对象非稀有设置中提高了 1.93%。

2)HOI-SDC: 在我们提出 HOI-SDC 数据集上，我们将 FGAHOI 与 QAHOI 进行比较，并消融 FGAHOI的每个组件（如表III所示）。骨干网络设置为 Swin-Tiny。基线模型超过了 QAHOI，特别是在 mAP 上有显著的增益 1.63%。HSAM 和 TAM 分别显著提高了 0.73% 和 0.66% mAP。得益于 MSS、HSAM 和 TAM，FGAHOI 在 HOI-SDC 上达到了 22.25 mAP。

3)V-COCO: 我们在 V-COCO 数据集上将 FGAHOI 与最先进的方法进行比较，并在表 IV 中报告了结果。与 QAHOI 相比，FGAHOI 仅在很小的范围内超过了它。这种现象主要是由于数据集中的训练数据太少造成的。我们发现，当训练数据不足时，FGAHOI 无法充分执行，因为任务需求复杂。此外，我们发现变换器骨干网络在这种情况下仍然优于 CNN 骨干网络。

E. UDA和LDVM的灵敏度分析

根据我们提出的两个挑战，我们将 HICO-DET 分成十个区间。在每个区间，我们分别比较 FGAHOI 和 QAHOI，分别使用 Swin-Tiny 和 Large*+ 骨干网络（如表 V 所示）。当比较 UDA 和 LDVM 的每个区间时，我们发现 HOI 检测的难度随着区间级别的增加而降低。这证实了最初的设计。因此，在提出新的 HOI 检测框架时，必须考虑模型解决这两个挑战的能力。在 FGAHOI 和 QAHOI 之间的比较中，结果表明 FGAHOI 在处理人-对象对的不均匀区域分布和长距离视觉建模方面具有更好的能力。

F. 定性分析

1)Visualized Results: 为了展示我们的模型，可视化了几个代表性的 HOI 预测结果。如图 5 所示，我们的模型可以从嘈杂的背景中准确识别出 HOI 实例，并在检测各种复杂的 HOI 方面表现出色，包括一个对象与不同的人交互，一个人与各种对象进行多次交互，单个对之间的多次交互，以及多个人与各种对象进行各种交互。此外，我们的模型在长距离视觉建模方面表现出色，能够承受恶劣环境的影响和小目标的识别。图 6(a) 展示了 FGAHOI 在长距离视觉建模方面出色的能力，能够准确识别相隔很远的人-对象对之间的交互。如图 6(b) 所示，我们的模型具有卓越的鲁棒性，能够有效抵抗恶劣环境因素的干扰，包括模糊、遮挡和眩光。图 6© 展示了 FGAHOI 在识别小的 HOI 实例方面的卓越能力。

2)What Do the Fine-Grained Anchors Look at?: 如图 7 所示，我们比较了 FGAHOI 和 QAHOI 的细粒度锚点。首先两个 HOI 实例（即，手持运动球和骑摩托车）表明 FGAHOI 能够更好地关注人类、对象和交互区域，而不是嘈杂的背景。FGAHOI 的第四个头仍然关注 HOI 实例，而 QAHOI 则关注背景。当检测人与人之间距离很长的实例时，FGAHOI 能够关注正确的位置，而 QAHOI 则像被斩首的鸡一样（如最后一个 HOI 实例所示）。

为了展示细粒度锚点在识别 HOI 实例中的有效性，并展示细粒度锚点的工作机制，我们在解码阶段可视化了不同尺度的特征图中的细粒度锚点。在图 10(a) 中，我们可视化了两个不同的人和一个对象的实例。如图 10(b) 所示，我们可视化了两个不同的对象和一个人类的实例。在图 10© 中，我们展示了包含人与对象之间距离短和长的两个实例。我们发现低级特征图中的细粒度锚点专注于小而细粒度的区域。它们在检测近距离和小的 HOI 实例中起着主要作用。高级特征图中的细粒度锚点专注于大而粗糙的区域。这对于检测长距离和大的 HOI 实例是必要的。

为了探索细粒度锚点关注的内容，我们在图 11 中可视化了几个代表性的动作。可视化表明，细粒度锚点能够将注意力精确地集中在产生交互动作的位置。例如，细粒度锚点主要关注 “text_on cell_phone” 的手，“eat orange” 的嘴，以及 “talk_on cell_phone” 的耳朵和嘴。对于 “kick sports_ball”、“jump skateboard” 和 “hop_on elephant”，兴趣的中心区域在腿和脚周围，而细粒度锚点主要关注 “carry handbag”、“repair hair_drier”、“hold cup”、“hold hotdog” 和 “cut with kinfe” 的手。

G. 消融研究

在这一节中，我们设计了一系列实验，以清楚地理解所提出方法的每个组成部分的贡献：合并机制、多尺度采样策略和分阶段训练策略。我们在 HICO-DET 数据集上进行了所有实验。

1)Ablating FGAHOI Components: 为了研究 FGAHOI 中每个合并机制的贡献，我们设计了仔细的消融实验，并在表 VI 中报告了结果。为了确保公平比较，所有采样大小都设置为 [1, 3, 5]。对于不利用层次空间感知和任务感知合并机制的基线，我们使用平均值和直接求和操作来合并采样特征并连接嵌入。表中的中间结果表示角色 mAP，右上角的结果表示与 QAHOI 相比的性能提升，右下角的结果表示与基线相比的性能提升。与第 1 行（QAHOI）相比，第 2 行添加了多尺度采样策略。结果表明，添加采样策略提高了模型检测 HOI 实例的能力。第 3 行和第 4 行表明，层次空间感知和任务感知合并机制对 FGAHOI 的成功都做出了重要贡献。层次空间感知合并机制与任务感知合并机制结合使用（第 5 行）比单独使用它们中的任何一个（第 3 行和第 4 行）表现更好。因此，FGAHOI 中的每个组件在 HOI 检测中都扮演着关键角色。

2)Sensitivity Analysis on Multi-Scale Sampling Sizes: 我们的多尺度采样策略根据预先确定的采样大小采样多尺度特征。我们改变了不同的采样大小，对采样策略进行了敏感性分析，并在表 VII 中报告了结果。我们发现采样策略相对稳定。采样大小的变化对 FGAHOI 的性能没有显著影响。然而，随着采样大小的增加，FGAHOI 的性能仍有轻微的下降。我们发现，随着采样大小的增加，围绕细粒度锚点的太多背景特征被采样，导致采样特征的污染，从而影响模型的性能。

3)Training Strategies: 如表 VIII 所示，我们分别使用分阶段和端到端训练策略来训练 FGAHOI。在端到端训练策略中，我们训练 FGAHOI 150 个周期，在第 120 个周期进行学习率下降。分阶段训练策略在默认全设置中提高了 5.96 mAP，在默认稀有设置中提高了 4.61，在默认非稀有设置中提高了 6.36，在已知对象全设置中提高了 6.04，在已知对象稀有设置中提高了 4.65，在已知对象非稀有设置中提高了 6.46 mAP。与端到端训练策略相比，我们发现分阶段训练策略降低了 FGAHOI 的学习难度，并通过在每个阶段强调它需要学习的内容来明确模型的学习方向。

VI. 结论

在本文中，我们提出了一种新颖的基于变换器的人类对象交互检测器（FGAHOI），它利用输入特征生成细粒度锚点，以保护 HOI 实例的检测免受嘈杂背景的干扰。我们提出了一种新颖的训练策略，分阶段顺序训练模型的每个组件，以明确每个阶段的训练方向，以最大化训练成本的节省。我们提出了两个新的度量标准和一个新的数据集，即 HOI-SDC，用于检测 HOI 实例的两个挑战（人-对象对中不均匀分布区域和人-对象对的长距离视觉建模）。我们在三个基准测试：HICO-DET、HOI-SDC 和 V-COCO 上进行了广泛的实验，证明了所提出的 FGAHOI 的有效性。具体来说，FGAHOI 在所有现有的最先进方法中都有显著的性能提升。

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

小白学视觉

关注

29
点赞
踩
26

收藏

觉得还不错? 一键收藏
打赏
0
评论
TPAMI 2024 | FGAHOI：用于人体-物体交互检测的细粒度锚点

人类-对象交互（HOI）作为计算机视觉中的一个重要问题，需要定位人-对象对并识别它们之间的交互关系。与单个对象实例相比，HOI实例在空间、尺度和任务上具有更大的跨度，使其检测更容易受到嘈杂背景的干扰。为了减轻嘈杂背景对HOI检测的干扰，有必要考虑输入图像信息以生成细粒度锚点，然后利用这些锚点指导检测HOI实例。然而，存在以下挑战：i) 如何从包含复杂背景信息的图像中提取关键特征仍然是一个开放性问题。ii) 如何在语义上对齐提取的特征和查询嵌入也是一个难题。
复制链接

扫一扫