论文笔记之Glance and Gaze: Inferring Action-aware Points for One-Stage Human-ObjectInteraction Detection

最新推荐文章于 2023-10-09 21:15:26 发布

To_1_oT

最新推荐文章于 2023-10-09 21:15:26 发布

阅读量1k

点赞数

分类专栏：论文笔记文章标签：计算机视觉深度学习人工智能 HOI

本文链接：https://blog.csdn.net/haha0825/article/details/115709180

版权

论文笔记专栏收录该内容

48 篇文章 13 订阅

订阅专栏

解决了一阶段方法不能动态搜索交互的判别线索的问题，提出glance和gaze步骤，前者快速判断特征图中每个点是不是交互点，后者进一步细化。
CVPR2021
论文地址：https://arxiv.org/abs/2104.05269
代码地址：https://github.com/SherlockHolmes221/GGNet

1. 总述

现有的一阶段模型通常从检测预定义的交互区域或点开始，然后仅关注这些区域以进行交互预测。因此，他们缺乏能够动态搜索判别线索的推理步骤。在本文中，作者提出了一种新颖的一阶段方法，即Glance Gaze Network（GGNet），该方法通过Glance和Gaze步骤自适应地对一组动作感知点（ActPoints）进行建模。

Glance步骤快速确定特征图中的每个像素是否是一个交互点。根据Glance步骤中的特征图，随后的Gaze步骤将在每个像素周围搜索一组ActPoint。然后，此步骤将逐步进行以完善这些ActPoint的位置。即这两个步骤分别推断出ActPoints的粗略位置和位置残差。GGNet汇总了精炼的ActPoints的特征以预测交互点处的交互类别。
作者进一步提出了一种行动感知点匹配（APM）方法，旨在将每个交互以及与其关联的人，物体进行匹配。该匹配过程指定了每个交互的人和物体实例的位置。现有的基于交互点的方法倾向于采用由所有交互类别共享的单个位置回归器；但是，本文作者观察到交互类别影响人-物对的空间布局。因此，本文为每个交互类别分配一个唯一的位置回归器，这一点在实验部分已被证明是一种更有效的方法。
最后，作者提出了一种新颖的焦点损失，即Hard Neg-ative Attentive（HNA）损失，以进一步提高GGNet的性能。由于基于交互点方法的每个交互分类器都有大量的负样本，因此每个交互类别的正样本和负样本之间都存在严重的失衡问题。因此，本文通过推断和突出显示困难的负样本来解决此问题。 具体来说就是在包含相同物体的有意义的HOI类别之间推断出困难的负样本。例如，我们可以根据标记为正样本的“ carry bicycle”推断出一个困难的负样本 “ repair bicycle”，除非“ repair bike”被标记为正例；这样，就可以弄清容易混淆的交互类别之间的决策边界。

2.总体结构

在这里插入图片描述
GGNet包括三个主要任务，即交互预测，人物配对和目标检测。这三个任务共享相同的backbone模型。

交互预测任务包括一个“glance”步骤和两个“gaze”步骤（训练时）。两个gaze步骤为特征图中的每个像素推断一组ActPoint。通过将它们的特征聚合到交互点，第二个gaze步骤能够更可靠地预测交互。
人与物体匹配任务是通过行动感知点匹配（APM）模块来实现的，该模块将交互预测和目标检测任务联系在一起。

在测试阶段，glance步骤和第一个gaze步骤仅用于推断ActPoint，而glance和gaze这两个步骤的其他层均被删除。

2.1 Glance & Gaze

glance步骤通过在特征上 $F$ 使用一个带relu的3×3卷积，一个1×1卷积，一个sigmod生成交互点热图来判断特征上的每一个点是不是交互点。

gaze步骤包含两个子步骤：

gaze1：由于 $F^0$ 中的特征已经可以感知动作，因此 $F^0$ 用于预测每个像素的n个ActPoints的粗略位置。此外，由于每个ActPoint的辨别力会随着对目标交互的重新考虑而变化，因此还需要预测每个ActPoint的权重。位置和权重预测均通过5×5 Conv层实现。接下来，使用一个deformable Conv层汇总ActPoints的特征及其权重。 5×5的offset field由ActPoints的数量确定。为确保预测的ActPoints合理，此子步骤生成的特征图也用于进行交互预测，以element-wisefocal loss作为监督。
gaze2：单靠上面的步骤不能总是获得ActPoints的精确位置。这是因为上述5×5卷积操作具有固定的视野，而人类和物体实例在一对中的位置可能会发生较大的变化。为了解决此问题，引入了gaze2来优化ActPoints的位置。具体来说，使用一个deformable Conv层在粗ActActs的特征 $F^1$ 中聚集特征，其输出特征图表示为 $G^1$ 。现在， $G^1$ 中的每个像素都具有较大的视野；然后将 $G^1$ 送到另一个5×5卷积层，以预测ActPoints位置的残差偏移量以及它们的新权重。通过将它们的粗略位置和剩余偏移量相加可获得ActPoint的最终位置。最后，使用另一个deformable Conv层汇总精炼的ActPoint的特征及其权重，以预测 $F^2$ 中每个像素的交互类别。

2.2 APM

为了组成一个HOI实例，每个检测到的交互点都与一个人-物对关联。现有的方法采用了一个由所有交互类别共享的回归器来进行这种关联过程。但是具有不同交互作用的人-物对的空间特征也有所不同。因此，本文提出了一个动作感知点匹配（APM）模块，该模块为每个交互类别分配一个唯一的位置回归器。

APM附加到 $F^0$ 。它包括一层3×3 Conv和一层1×1 Conv。后者充当回归器。每个回归器相对于交互点向人体点（物体点）输出一个二维偏移量（因为是每一个类都输出一个到人的一个到物体的，所以维度是4V，V是交互类别数量）。然后在推理过程中利用这些预测的偏移量来匹配目标人（物体）提议。

2.3 Hard Negative Attentive （HNA）Loss

每个交互类别的热图大小为 $H / d \times W / d$ （d为下采样倍数），通常很大，这就会导致每个热图中都有大量的负样本，这就带来了正样本与负样本之间不平衡的问题。此外，由于交互作用类别的长尾分布问题，一些交互作用类别的正样本非常有限，这进一步加剧了失衡问题。基于上述观察，作者提出了一种HNA损失指导模型将重点更多地放在每个交互类别的困难负样本上。

从共享同一物体类别的有意义的HOI类别之间推断出困难负样本。例如，如果“human repair bicycle”不被认为是正例，则可以根据标记的正样本“human carry bicycle”推断出“repair”类别的“human repair bicycle”是困难负例。而且不会推断从没有在训练集中出现过的无意义的HOI类别为困难负例，例如“human eat bicycle”。在“repair”类别的交互热图中，可以将推断出的“human repair bicycle”样本突出显示为困难负例。

首先，引入高斯热图mask $\mathbf{M} \in[-1,1]^{\frac{H}{d} \times \frac{W}{d} \times V}$ ，用于标记正样本和硬负样本。对于交互点位于 $x_i,y_i)$ 的GT HOI样本 $v_i,o_i)$ ， $M_{x_iy_iv_i}$ 设为1，它也用作M的第 $v_i$ 通道中高斯分布的中心。此分布中元素的值在[0,1]之内。此HOI样本的交互类别和物体类别分别表示为 $v_i,o_i$ 。
其次，借助标记的阳性样本 $v_i,o_i)$ 推断出的一组HOI样本 ${(v_j,o_i)}$ 作为第 $v_j$ 个交互类别的困难负例。如果没有将 $v_i,o_i)$ 标记为正样本，则将 $M_{x_iy_iv_j}$ 设置为-1，并且还将其用作M的第 $v_j$ 个通道中另一个高斯分布的中心。此分布中元素的值在[−1,0]之内。
对每个GT HOI样本重复以上两个操作。 M中剩余元素的值设置为0。最后，HNA损失可以表示为：

其中N是图像中GT 交互点的数量。 $P_{xyv}$ 表示在位置 $(x, y)$ 处交互类别 $v$ 的预测分数。