Detecting and Recognizing Human-Object Interactions

CVPR2018	Author:Georgia 	Gkioxari Ross	Girshick	 Piotr Dollar	 Kaiming He

摘要

我们提出了一个以人为中心的的新模型。我们的假设是,一个人的外表——姿势、衣着、动作——是定位他们正在互动的物体的有力线索。为了利用这一线索,我们的模型学习根据被探测到的人的外观来预测目标物体位置上特定于动作的密度。我们的模型还会联合检测人和物体,通过融合这些预测,它有效地推断出一个干净的、联合训练的端到端系统中的交互三联体,称为InteractNet。

1.介绍

我们认为重点是人的外观,因为他们的位姿和动作可以用于推理交互的目标检测的位置。
模型一共有三个分支:
1.一个以人为中心的识别分支
2.一个标准的物体检测分支
3.一个简单的两两交互分支。
形成一个多任务系统放在一起进行学习优化。

2.相关工作

模型结构(如图):我们的模型包括(a)一个目标检测分支,(b)一个以人为中心的分支,和©一个可选的交互分支。人员特性及其层在以人为中心的和交互分支(蓝框)之间共享。
在这里插入图片描述

3.方法

我们的目标是要去检测一个以<人+动词+物体>的三元组,所以我们必须精确地定位包含人的bbox和关联交互对象的bbox(分别用bh和bo表示),以及标识正在执行的交互动作a(从A类动作中选择)。
我们扩展了Fast R-CNN框架,增加了一个以人为中心的分支,该分支对动作进行分类,并为每个动作估计目标物体位置的概率密度。
具体来说,给定一组候选框,Fast R-CNN输出一组物体boxes和每个box的类标签。
我们的模型将其改进为,将一个三重值Sah,o赋给成对的候选人/对象框bh, bo和一个动作a。为此,我们将三重值分解为四个项:
在这里插入图片描述
sh和so是从包含人(human )和目标物体(object)的候选框bh和bo的Fast RCNN得到的分数,以人为中心的分支还会输出额外的两项:第一,sah是为在bh的人分配给行动a的分数。第二,μa h是一个给定的人/动作对的交互目标的预测位置,根据人的外观计算。这可以用来计算gah,o(带有bo的物体是实际交互目标的可能性大小)。

3.1 模型组成

目标检测:首先,使用区域建议网络(RPN)生成对象建议框。然后,对于每个建议框b,我们使用RoiAlign提取特征,并进行对象分类和边界框回归,得到一组新的建议框,每个建议框都有一个关联的得分s0(如果框是给人的就是sh),这些新框只在推理过程中使用;在训练时所有分支都使用RPN建议框进行训练。
交互分类:以人为中心的分支的第一个作用是对每个人框bh和动作a分配一个动作分类得分sah。就像在对象分类分支中一样,我们使用RoiAlign从bh中提取特征,并预测每个动作a的得分。由于人可以同时做多个动作,所以对于检测到的多个动作在输出层使用二进制sigmoid分类器(预测的这一系列动作不会进行竞争)。训练目标是使ground-truth动作标签与模型预测的分数sah之间的二元交叉熵损失最小。
目标定位:以人为中心的分支的第二个作用是根据人的外观(再次用bh汇聚的特征表示)预测目标对象的位置。然而,仅根据bh的特征来预测精确的目标位置是不太好的。所以我们的方法是先预测可能位置上的密度,并使用此输出与实际检测目标的位置一起来更精确地定位目标。
我们将目标物体位置的密度建模为一个高斯函数,其均值是基于人的外观和正在执行的动作预测的。形式上,以人为中心的分支预测μah,即给定的预测人的框bh和动作a的目标物体的4维平均位置。然后我们将目标定位公式写为:
目标定位的高斯函数
我们可以使用g来测试对象框bo与预测目标位置μah的兼容性。公式中bo|h是bo在相对于bh的坐标中的编码,即为:
物体检测框在人检测框中的相对坐标编码
训练目标是使μah和bo|h之间的smooth L1损失最小,其中bo是用于交互的groundtruth真实目标物体的位置。我们将σ作为一个超参数,利用验证集经验地将其设置为σ = 0.3。
此外,由于这种预测是特定于动作和实例的,所以即使我们使用单峰分布对目标位置建模,我们的公式也是有效的。在第5节中,我们将讨论我们的方法的一个变体,它允许我们处理有条件的多峰分布,并为单个动作预测多个目标。
交互识别:模型只使用人的外观,并没使用目标物体的外观。为了提高我们的模型的鉴别能力和灵活性,我们可以将第一个公式中的sah替换为一个交互分支,该分支基于人和目标对象的外观对一个动作进行评分。我们用sah,o来表示这个替代项。
sah,o的计算重用了sah的计算,并基于bo提取的特征并行执行类似的计算。将两个动作分类头(lA维的对数向量)的输出求和并通过一个sigmoid激活产生A个分数。图3 ©说明了这个过程。和前面一样,训练目标是使ground-truth动作标签和预测动作得分sah,o之间的二元交叉熵损失最小。

3.2多任务训练

我们把HOI作为一个多任务学习问题。图中的三个分支一起训练,总的损失函数是模型中包含的所有损失函数之和:(1)目标检测分支的分类和回归损失,(2)以人为中心的分支的动作分类和目标定位损失,(3)交互分支的动作分类损失。
我们采用以图像为中心的[9]训练。所有的损失都在RPN提议和ground truth box上计算。和Faster R-CNN一样,我们从每幅图像中最多取样64个盒子用于目标检测分支,正box和负box的比例为1:3。以人为中心的分支最多计算16个与人类类别相关的bh(他们的IoU与ground-truth person box重叠为0.5)。交互分支的损失只在正的三元组上计算,即(预测的<bh, a, bo>必须与一个ground truth真实的三元组关联)。除了以人为中心的分支中的动作分类术语的权重是2之外,所有损失术语的权重都是1,这样设置的性能更好。

3.3级联推理

在推理中,我们的目标是根据sah,o找到得分高的三元组。虽然原则上这有O(n2)复杂度,因为它需要对每一对候选框进行评分,但我们提出了一个简单的级联推理算法,其主要计算复杂度为O(n)。
目标检测分支:首先检测图像中的所有对象(包括person类)。我们在得分高于0.05的盒子上应用非最大抑制(NMS), 设置IoU阈值为0.3(保守设置以保留大部分对象)。这一步生成一个新的更小的集合,n个box,得分为sh和so。跟训练时不同的是,这些新的方框被用作其余两个分支的输入。
以人为中心的分支:下一步,我们对所有被分类为human的检测目标使用以人为中心的分支。对每个动作a和human框bh,我们计算分配给a的得分sah和相对于bh目标物体定位的预测均值偏差μah。这一步的复杂度是O(n)。
交互分支:如果使用可选的交互分支,我们必须为每个动作a和一对bh,bo计算sah,o。我们首先为每个bh和bo分别计算两个动作分类头的对数。然后把这些对数加起来再为每对bh和bo执行一次sigmoid。虽然最后一步复杂度是O(n2),但实际上它的计算时间可以忽略不计。
实际上我们并不是为每一对可能的三元组计算,而是为每一对sah,o最大的human/动作对计算,所以计算:
在这里插入图片描述
直观来看,上式鼓励在一个高评分动作的预测目标位置附近选择一个高可信度的对象。对每个bh和动作a选中的b0,最后模型的输出是sah,o。对于没有交互的动作(如smile,run),就使用sah,预测的<human,verb>的预测对即为sh*sah

4.数据集和测试

数据集使用V-COCO(verbs in COCO)和HICO-DET。
在HOI任务中,最重要的AP是由<human, verb, object>组成的AP,称为“role AP”(AProle)。形式上满足一下三个条件的三元组可以被认为是TP:
(a)预测的human框bh和ground truth的IoU值大于0.5。
(b)预测的object框bo和ground truth的IoU值大于0.5。
(c)预测的动作a和实际的动作匹配。
当TP定义好之后,AP的计算便和普通的目标检测类似。注意这里没考虑目标物体分类的正确性,而是只针对于目标位置。但实际上是可以预测目标分类的。

实验

主干网络:特征金字塔网络(FPN)基于ResNet-50
在这里插入图片描述
单人多动作和多物体
在这里插入图片描述

总结和创新

1.在Faster RCNN后提出一个三分支的多任务网络,以人为中心,目标物体的位置检测是相对于human框来确定的,交互动作也是相对于human的。
2.在训练的时候三个分支一起训练,在test和推理过程中先进行目标检测分支,再将其计算输出bh和bo作为下两个分支的输入。后面具体的看论文。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值