Paper Reading: Detecting and Recognizing Human-Object Interactions

Abstract

要理解视觉信号,不只需要识别人和物体,还需要识别出他们之间的交互关系, 因此识别人体和物体的交互关系是一个很重要的实际问题和科学问题. 本文实现对日常图片中<人,动作,物体>组合的检测. 我们提出了一个以人为中心的方法. 我们的猜想是: 一个人的外观(包括姿势, 衣服和动作)是确定所交互的物体的重要线索. 为了利用这种特征,我们的模型学习基于人的外观来预测目标物体上特定动作的密度. 我们的模型可以联合地学习检测人和物体, 并且可以通过融合预测结果有效地推断交互动作组合. 我们的这种端到端的联合训练的模型成为InteractNet. 我们在V-COCO和HICO-DET数据集上面验证我们的方法.

Introduction

得益于深度学习的特征表征方法,基于视觉信号对单独个体进行识别的工作有了很大的提升,如物体检测和人的动作姿态估计。但是,识别单一个体只是机器进行视觉世界理解的一小步,对个体间关系的识别对图像理解尤为重要。本文中我们聚焦于人-物交互关系的研究。
人-物交互关系识别的任务可以理解成是对<人,动作,物品>三元组合的检测任务,该任务具有很大的应用价值和研究价值。本文提出了一个以人为中心的模型用于识别人-物交互关系。我们认为一个人的外观反映了他的动作和姿势,这可用于推断目标物体的位置所在,从而缩小对目标物体的查找范围。尽管画面中会识别出多个物体,但是推断出的目标位置可以帮助模型快速地找到特定动作所对应的物体。
我们通过Faster R-CNN结构的以人为中心的分支来实现这个目标。在人体的RoI中,这个方法实现动作分类和动作所关联的目标物体的密度估计。这个密度估计器对每个动作类别预测出一个4维的高斯分布,从而对人-物相对距离进行了建模。这种预测方法仅依赖于人的外观。这个人为中心的识别方法组合了标准的物体识别方法和简单的关系配对,得到了一个可以联合优化的多任务学习的系统。
我们在V-COCO数据集中测试了我们的方法InteractNet,我们的模型提高了26%从31.8到40.0AP,这个增长主要得益于根据人的外观推断物体相对位置。另外,我们还在HICO-DET数据集中证明了InteractNet的有效性。我们的方法可以以135ms/图的速度运行,显示其具有较好的实用潜力。

Related Work

物体识别

在过去几年中,基于Bounding-Box的物体检测器的性能稳步提升。R-CNN是一个特别成功的方法流派,这是一个二阶段的方法,第一阶段提出备选的RoI,第二阶段进行物体分类。通过RoI汇合操作,可以从共享的特征图中快速提取局部特征。特征共享加速了对象级别的检测,并且能够识别高阶的交互关系,否则这在计算上使不可能的。我们的方法是基于Fast/Faster R-CNN框架。

人体动作姿态识别

人的动作和姿态表明了他们与物体及他人的交互关系。从图像中理解人体动作和姿态的任务已经有了很大的进展,但是这些方法都是基于人个体,而没有估计人与物体之间的交互关系。我们依靠人的动作和姿态的外观线索,来预测人与物体的交互关系。

视觉关系

在视觉关系建模上的研究已经得到了不断的关注,最近,Lu 等人提出基于开放世界词汇来识别视觉关系,词汇包括动作、空间关系和介词短语。我们的关注点相似但不同,首先,我们的目的使理解以人为中心的交互,这种关系只涉及人与物体的直接交互,而不是关注空间位置关系。其次,我们要得到一个识别图像中的交互关系的精确的检测器,衡量精确度在实际应用中很重要,而在一个开放词汇的识别任务中,衡量精确度是不可行的,只能评估召回率。

人-物交互

相比于视觉关系的任务,人-物交互关系具有更大的挑战,因为人的动作具有更细的粒度,并且人可以同时进行多项动作。这些情况使得我们需要更对人的动作和人周围的物体有更深的理解.准确的人物交互关系的识别可以对多种计算机视觉任务有帮助,如特定动作的图像检索、字母生成和问题解答。

方法

我们的目标是检测和识别<人,动作,物品>的三元组合,因此需要精确地定位包含人的box和对应物品的box,分别用 b h b_h bh b o b_o bo表示,同时从全部A种动作中识别出动作a。
我们的解决方案是将整个复杂的闻你分解成简单的形式。我们使用一个附加的以人为中心的分支来拓展Fast R-CNN物体检测框架,这个分支是用于动作分类和估计对应物体的位置概率分布,这个分支对Fast R-CNN提取的特征进行重用,因此计算量不大。
Fast R-CNN会输出对于一系列的bounding box以及每个box对应的标签。我们的模型通过对每个三元组合的box和动作设置score S h , o a S_{h,o}^a Sh,oa
这个score的数学定义为:
在这里插入图片描述
s h s_h sh s o s_o so b h b_h bh b o b_o bo的分类分数,另外两个分数是由我们的human-centric分支得到的。 s a h s_a^h sah是于 b h b_h bh相关联的动作的score,而 μ h a \mu_h^a μha是根据人的外观特征计算得到的目标物体的预测位置。这个变量会用来计算 g h , o a g_{h,o}^a gh,oa,即物体的box b 0 b_0 b0的是目标物体的可能性。
在这里插入图片描述
上图展示了各个score是如何得到的,整个模型结构包括了三个分支,其中人的特征和相关的层被human-centric branch和interaction branch两个分支共享。

模型部件

物体检测

此部分即上图的a分支,首先,使用RPN得到物体的proposals,然后对于每个box我们使用RoiAlign提取特征,进而使用物体分类和bounding box回归来获得新的一系列的box,每个box有个对应的分数 s o s_o so s h s_h sh,这些新的box只在前向的使用,训练过程中是使用RPN得到的boxes来训练。

动作分类

human-centric branch的第一个作用是为每个 b h b_h bh和动作a计算一个动作分类的分数。和上面的物体分类一样,我们使用RoiAlign得到 b h b_h bh的特征进而预测动作的分数。由于人可以同时做多个动作,我们使用多个二进制sigmoid分类器进行多任务分类,即每个类别之间不冲突。训练的目标函数是使分类的交叉熵损失函数最小。

目标定位

human-centric branch的第二个作用是用人的表观信息预测目标物体的位置。单纯地基于 b h b_h bh的特征来预测准确的物体位置很有难度,我们的方法使预测可能的概率分布,进而结合检测到的物体的实际位置来综合判断目标的定位。
我们使用高斯方程对物体的位置概率进行建模。对于物体box是目标物体的概率 g h , o a g_{h,o}^a gh,oa的计算公式为:
在这里插入图片描述
其中 b o ∣ h b_{o|h} boh是物体相对于人的相对位置, μ h a \mu_h^a μha是对于人和动作估计的目标物体位置,当某个物体相对于人的位置与估计的目标物体的位置相对吻合时,该物体是目标物体的概率就会大。 σ \sigma σ是一个超参数,我们通过经验设置其为0.3.
训练目标函数是使 μ h a \mu_h^a μha b o ∣ h b_{o|h} boh之间的L1损失最小。
值得注意的是,目标物体不一定在人的检测框内,我们认为这种box之外的回归是可信的因为人的外观提供了关于目标物体的很强的线索。

交互关系识别

我们的human-centric 模型是基于人的外观对动作评分,然而这里并没有把目标物体的外观特征考虑进去。为了证明我们的模型的分类性能,并且证明我们的框架的弹性,我们使用一个interaction branch替换 s h a s_h^a sha(基于人的动作概率)。整个interaction branch是基于人和物体的外观来对动作打分,我们使用 s h , o a s_{h,o}^a sh,oa来表示这个action score。通过融合 s h a s_h^a sha b o b_o bo的特征计算得到的动作分数,来得到 s h , o a s_{h,o}^a sh,oa

多任务训练

我们将human-object interaction任务作为多任务学习问题来训练,即三个branch共同训练。总的loss是所有loss的加和。这些loss包括:1)物体检测分支的分类和回归的loss 2)human-centric branch中的动作分类和目标物体定位的loss 3)interaction branch的动作分类loss。这与我们的推断过程不同,推断过程中物体检测的输出是作为human-centric 分支的输入。
我们采用了image-centric 训练方法,素有的loss是基于RPN 的proposal和ground truth的box的差别。在物体识别branch中,我们对每张图片采样了最多64个box,并且正负box的比例为1:3。在human-centric branch中,我们基于IoU阈值>=0.5得到最多16个人的box。

级联的前向推断

在前向过程中,我们的目标是根据 S h , o a S_{h,o}^a Sh,oa找出最高分的三元组合,由于如果对备选box进行两两配对,我们的时间复杂度是 O ( n 2 ) O(n^2) O(n2),当采用级联推断算法,就只有 O ( n ) O(n) O(n)的复杂度。
在物体识别分支中,我们首先检测除包括人和物的所有物体,然后对所有score高于0.05的box使用非极大值抑制筛选,其中非极大值抑制的IoU阈值选择为0.3。从而得到了一个小一点的box集合。这一步的boxes会作为后面两个分支的输入。
在human-centric branch中,对于每一个人的box和动作a,我们计算一个 s h a s_h^a sha μ h a \mu_h^a μha
在interaction 分支中,我们先单独计算物体和人对应动作的分数,然后再两两求和。
当我们得到了三个branch的输出,就可以计算下面的scores:
在这里插入图片描述
我们不是对所有的三元组合打分,而是针对每一个(人,动作)组合寻找最大的 S h , o a S_{h,o}^a Sh,oa,即:
在这里插入图片描述
对于没有交互物体参与的交互,比如微笑和跑步,我们和object有关的分数就没有意义,公式变为 s h ∗ s h a s_h*s_h^a shsha

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值