iCAN: 面向HOI检测的以实例为中心的注意力网络

Author: Chen Gao		Yuliang Zou			Jia-Bin Huang

摘要

我们的核心观点是,在图像的相关部分中一个人或一个物体实例的外观包含有用的线索,这可以促进交互的预测。为了利用这些线索,我们提出了一个以实例为中心的注意力模块,该模块可以根据每个实例的外观动态显现图像中的区域。这种基于注意力的网络允许我们有选择地聚集与识别HOIs相关的特征。

1.介绍

大多数现有的方法通过人和物体的外观特征以及它们的空间关系来推断交互。虽然整合情境通常有助于提高表现,但这些手工设计的注意力区域可能并不总是与识别动作/互动相关。
在本文中,我们提出了一个端到端可训练的以实例为中心的注意力模块,该模块学习使用人或对象实例的外观来突出信息区域。我们的想法是,一个实例(人类或物体)的外观提供了我们应该注意的图像位置的线索。例如,为了更好地确定一个人是否携带了一个物体,我们应该把注意力放在这个人的手周围的区域。所提出的以实例为中心的注意网络(iCAN)动态地为每个被检测到的人或对象实例生成一个注意力图,突出与任务相关的区域。在V-COCO和HICO-DET上达到了SOTA。

2.相关工作

目标检测:我们的工作使用现成的Faster R-CNN来定位人和物体实例。所以我们的方法主要集中于识别每一对人和物体实例之间的交互(如果存在交互的话)。
注意力机制:在动作识别和HOI任务中引入注意力机制已经做了大量的努力。这些方法通常使用手工设计的注意力区域来提取上下文特征。我们的工作建立在基于注意力机制的最新进展上,并将其扩展到处理实例级HOI识别任务。
人物交互:现有的工作基于单个线索(人类外观、物体外观或人-物对之间的空间关系)来识别交互。我们认为类似的预测不可避免的会缺乏上下文信息。我们提出的以实例为中心的注意力模块提取与局部区域外观特征相补充的上下文特征(例如人类/物体box)来辅助HOI检测。

3.以实例为中心的注意力网络

模型结构总览

3.1算法总览

我们对HOI的检测主要包含两步:1)目标检测;2)HOI检测。首先,给定一个输入图像,我们使用Faster R-CNN来检测所有的人/对象实例。我们用bh表示为一个人的检测边界框,将bo表示为一个对象实例。使用sh和so分别表示被检测的人和被检测对象的置信分数。其次,我们通过提出的以实例为中心的注意网络评估所有人-物bbox对,以预测交互得分。
推理:对于每个人-物体bbox对(bh, bo),我们预测每个动作的得分Sah,o,对每个动作a∈{1,…,A},其中A表示动作的总数。分数Sah,o取决于(1)对单个物体检测的置信度(sh,so等)(2)基于人sah和物体sao的外观交互预测,(3)基于人和物体之间空间关系的得分预测sasp。其计算公式为:

对于没有目标物体的交互(如smile,run等)则只针对于human方面的动作分数sh,即其得分为sh*sah
训练:由于一个人可以做多个动作,所以HOI检测是个多标签分类问题,其中每个交互分类是独立而非相互竞争的。我们对每个动作类别使用一个二进制sigmoid分类器,然后让动作得分sah,sao,或者sasp和每个动作类别的ground truth动作标签之间的交叉熵损失最小。

3.2以实例为中心的注意力模块

**iCAN模块**:
我们首先使用标准流程提取实例级别的外观特征xhinst,比如应用ROIpooling,通过残差块res,然后全局平均池化(GAP)。然后我们将实例级外观特征xhinst和卷积特征映射都嵌入到512维的空间中,并使用向量点积来度量该嵌入空间中的相似性。然后我们便可以使用softmax来获得以实例为中心的注意力图。利用注意力图,我们可以通过计算卷积特征的加权平均值来提取上下文特征xhcontext。我们iCAN模块的最终输出是一个以实例级别的外观特征xhinst和基于注意力的上下文特征xhcontext的拼接。
我们的iCAN模块与以往方法相比有以下几个优点:首先,我们的注意力图是自动学习的,并与网络的其他部分共同训练以提高表现。其次,与为图像级别分类而设计的注意力模块相比,我们的以实例为中心的注意力图提供了更大的灵活性,因为它允许根据不同的对象实例来关注图像中的不同区域。

3.3多分支网络

如模型总览图所示,我们的网络使用3个分支来计算基于human外观的动作得分sah,基于物体外观的动作得分sao和他们的空间关系sasp
人/物分支对于人和物的分支我们提取实例级别的外观特征xhinst,xoinst,和根据3.2中基于注意力图的上下文特征xhcontext(或xocontext)。然后把这两个特征向量拼接并送入两层FC层中得到动作得分sah和sao
交互分支:为了编码人和物体之间的空间关系,我们采用双通道二值图像表示来表征交互模式。具体来说,我们将这两个box的并集作为参考box,构造一个包含两个通道的二值图像。第一个通道在人的边界框内的值为1,在其他地方值为0;第二个通道在对象边界框内的值为1,在其他地方的值为0。然后使用CNN从这个双通道二值图像中提取空间特征。但是我们发现,由于空间信息粗糙(只有两个边界框),该特征本身不能产生准确的动作预测。为了解决这个问题,我们把空间特征和human外观特征xhinst进行了拼接。因为人的外观特征在相似空间布局上可以帮助区分不同的动作。

3.4推理过程

我们使用一个级联方式来计算三元组的得分,我们首先计算来自人和对象分支的动作分类头的得分,分别对应于每个盒子bh和bo。这第一步对于n个human/object实例来说有 O(n) 的复杂度。第二步涉及计算所有可能的人-物对的分数。虽然第二步的复杂度是O(n2),但是计算分数Sah,o是非常高效的,因为它只涉及到对人分支sah和对象流sao中的一对分数求和(在第一步中已经计算和存储了)。
后期融合vs早期融合:我们将使用对匹配相加分数方法的方法称为后期融合(因为动作分数首先从人/物分支中独立预测,然后再相加)。我们还实施了一种早期融合的iCAN变体。具体地说,我们首先将human iCAN,object iCAN和交互分支中得到的所有特征进行拼接,并使用两层FC层来估计所有的human-object对中得到的分数。因此它的推理速度较慢,无法很好地适应有很多对象的场景。

4.实验结果

数据集:V-COCO,HICO-DET。
评价标准:role mAP。
实验细节:我们使用Detectron中的特征骨干网络ResNet-50-FPN来生成人和对象的bbox。使人box的分数sh高于0.8,物体box的分数so高于0.4。我们在Faster R-CNN的基础上实现了一个ResNet-50的backbone。在V-COCO训练集上训练我们的网络进行300K次迭代,学习速率为0.001,权重衰减为0.0001,动量为0.9。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

总结

提出了一个以实例为中心的注意力模块iCAN,以往的方法大多都只针对于human和动作,这里将human和动作,object和动作都考虑,得到sah和sao。对于交互分支使用包含2个通道的二值图,同时将空间特征与human外观特征进行拼接解决信息缺乏的问题。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值