论文笔记之ICAN

最新推荐文章于 2024-04-08 01:04:13 发布

To_1_oT

最新推荐文章于 2024-04-08 01:04:13 发布

阅读量741

点赞数

分类专栏：论文笔记文章标签：人物交互计算机视觉人工智能深度学习行为识别

本文链接：https://blog.csdn.net/haha0825/article/details/106646946

版权

论文笔记专栏收录该内容

48 篇文章

订阅专栏

利用注意力模块，为每一个检测到的人或物体生成注意力图以突出显示与任务相关的区域
被BMVC2018接收
论文地址： https://arxiv.org/pdf/1808.10437.pdf

1. 摘要

本文提出了端到端可训练的以实例为中心的注意力模块用于学习使用人或外观突出信息区域的物体实例。我们的直觉是一个实例的外观（无论是人还是物）提供关于图像中我们应该注意的位置的提示。例如，更好地确定一个人是否携带物体，应该将其注意力集中在拿着物体的人的手周围的区域。以实例为中心的**注意力网络（iCAN）**为每个检测到的人或物体动态生成注意力图以突出显示与任务相关的区域。

贡献：
● 引入了一个以实例为中心的注意力模块，它允许网络动态突出信息区域以改进 HOI 检测。
● 在两个大型 HOI 基准数据集上取得了新的当前最佳性能。
● 进行了详细的对比实验和误差分析，以确定各个组成部分的相对贡献，并量化不同类型的误差。
● 发布了源代码和预训练模型，以促进将来的研究。

2. 相关工作

Attention：
已经有了广泛的研究以将注意力集中在动作识别和人物交互任务中。这些方法通常使用手工设计的注意区域来提取上下文特征。最近，已经提出了端到端可训练的基于注意力的方法来改进动作识别或图像分类的性能。但是，这些方法是为图像级分类任务而设计的。

Human-object interactions：
检测HOI可以更深入地了解场景中的情况。 Gupta和Malik 首先解决了HOI检测问题 - 检测做动作的人以及和他们交互的物体实例。

将场景中的目标与各种语义角色相关联可以更精细地理解当前的活动状态。最近，Gkioxari等通过基于检测到的人的外观，在目标物体位置上引入特定于动作的密度图。此外，通过用ResNet-50和特征金字塔网络取代特征backbone，也显示出显着改善的结果。除了使用物体实例外观，Chao等人还用CNN编码人与物体之间的相对空间关系。

本文的工作建立在HOI检测的这些最新进展的基础上，但具有关键的区别。现有工作基于个体线索（人类外观，物体外观或人 - 物体对之间的空间关系）识别交互。作者观察到，这种预测不可避免地受到缺乏背景信息的影响。本文所提出的以实例为中心的注意模块提取与局部区域（例如，人/物体框）的外观特征互补的上下文特征，以促进HOI检测。

在这里插入图片描述
上图为上下文特征示例。除了使用人和物体的边界框之外，本文还用不同方式从图像中捕获语义信息。

3. 本文方法—实例中心注意力网络

3.1 网络结构

（1）总体结构
在这里插入图片描述
所提出的模型包括以下三个主要分支：
● 基于人类外观检测交互的人的分支;
● 基于物体外观预测交互的物体的分支;
● 用于编码人类和物体边界框之间的空间布局的成对分支。

给定由Faster R-CNN检测到的目标实例，使用所有人 - 物体对生成HOI假设。然后融合来自各个分支的动作分数以产生最终预测，如上图右侧所示。

（2）ICAN模型

给定图像的卷积特征（以灰色显示）和人/物体边界框（以红色显示），iCAN模块提取实例x_h inst（人类）或x_o inst（物体）的外观特征，作为以实例为中心的注意力图的特征。为了计算注意力图，测量了嵌入空间中的相似性以及512个通道的瓶颈。具体来说，使用1×1卷积和实例外观特征x_h inst将图像特征嵌入到全连接层中。这里，res5表示第五残差块，GAP表示全局平均合并层，FC表示全连接层。

本文以与现有方法类似的方式预测HOI分数。对于每个人 - 物体边界框对，预测每个动作的得分在这里插入图片描述，对于每个动作，其中A表示可能的动作的总数。
得分取决于
（1）单个目标检测的置信度
（2）基于人的外观和物体的外观的交互预测
（3）基于人与物体之间的空间关系的分数预测

具体来说，人类物体边界框对的HOI得分具有以下形式：

在这里插入图片描述
对于一些不涉及任何物体的动作类（例如，walk，smile），本文使用的动作分数仅来自检测人的分支。对于这些行为的最终得分是。

Training:
由于一个人可以同时对一个或多个目标物体执行不同的动作，例如，一个人可以同时“击中”网球并“抓住”网球拍，因此HOI检测是多标签分类问题，其中每个交互阶级是独立的，不是相互排斥的。作者为每个动作类别应用二进制sigmoid分类器，然后最小化动作分数在这里插入图片描述与每个动作类别的ground truth动作标签之间的交叉熵损失。

3.2 实例中心注意力模块

以实例为中心的注意模块，主要用于从图像中提取上下文特征。

首先使用标准过程提取实例级外观特征，例如，应用ROI池化，然后通过残差块，然后是全局平均池化。
接下来是动态生成以感兴趣的目标实例为条件的注意力图。为此，作者将实例级外观特征和卷积特征图嵌入到512维空间中，并使用矢量点积测量该嵌入空间中的相似性。然后通过应用softmax获得以实例为中心的注意力图。注意图突出显示图像中的相关区域，其可以有助于识别与给定人/物体实例相关联的HOI。
使用注意力图，可以通过计算卷积特征的加权平均值来提取上下文特征。 iCAN模块的最终输出是实例级外观特征和基于注意力的上下文特征的融合（拼接）。

本文的iCAN模块与现有方法相比具有多种优势。

首先，与基于姿势，整个图像或次要区域的手工设计的上下文特征不同，本文的注意力图被自动学习并与其余网络共同训练以改善性能。
其次，与为图像级别分类设计的注意力模块相比，以实例为中心的注意力图提供了更大的灵活性，因为它允许根据不同的目标实例参与图像中的不同区域。

3.3 多流网络

如图3所示，网络使用三个分支来计算基于人类外观，物体外观及其空间关系的动作分数。

**Human/object stream：**对于人类和物体流，提取了1）一个人/物体的实例级外观特征和 2）基于注意力图的上下文特征，使用两个特征向量，然后连接它们并将其传递通过两个全连接层以产生动作得分。
**Pairwise stream：**虽然人类和物体外观特征包含用于识别交互的强烈提示，但仅使用外观特征经常导致合理但不正确的预测。为了对人与物之间的空间关系进行编码，本文采用双通道二值图像表示来表征交互模式。具体来说，将这两个框的并集作为参考框，并构建一个二进制图像，其中包含两个通道。第一个通道在人类边界框中的值为1，在其他地方的值为0;第二个通道在物体边界框中的值为1，在其他位置的值为0。然后，使用CNN从这个双通道二进制图像中提取空间特征。

但是，作者发现由于粗糙的空间信息（仅两个边界框），该特征本身不能产生准确的动作预测。为了解决这个问题，作者将空间特征与人类外观特征连接起来。理由是，人的外观可以极大地帮助消除具有相似空间布局的不同动作，例如骑行与骑自行车。