Detecting and Recognizing Human-Object Interactions

最新推荐文章于 2022-04-17 16:35:25 发布

叫我小草裙儿

最新推荐文章于 2022-04-17 16:35:25 发布

阅读量360

点赞数 2

分类专栏：论文学习文章标签：计算机视觉

本文链接：https://blog.csdn.net/qq_40523516/article/details/117399546

版权

论文学习专栏收录该内容

6 篇文章 1 订阅

订阅专栏

CVPR2018	Author:Georgia 	Gkioxari Ross	Girshick	 Piotr Dollar	 Kaiming He

摘要

我们提出了一个以人为中心的的新模型。我们的假设是，一个人的外表——姿势、衣着、动作——是定位他们正在互动的物体的有力线索。为了利用这一线索，我们的模型学习根据被探测到的人的外观来预测目标物体位置上特定于动作的密度。我们的模型还会联合检测人和物体，通过融合这些预测，它有效地推断出一个干净的、联合训练的端到端系统中的交互三联体，称为InteractNet。

1.介绍

我们认为重点是人的外观，因为他们的位姿和动作可以用于推理交互的目标检测的位置。
模型一共有三个分支：
1.一个以人为中心的识别分支
2.一个标准的物体检测分支
3.一个简单的两两交互分支。
形成一个多任务系统放在一起进行学习优化。

2.相关工作

模型结构（如图）：我们的模型包括(a)一个目标检测分支，(b)一个以人为中心的分支，和©一个可选的交互分支。人员特性及其层在以人为中心的和交互分支(蓝框)之间共享。
在这里插入图片描述

3.方法

我们的目标是要去检测一个以<人+动词+物体>的三元组，所以我们必须精确地定位包含人的bbox和关联交互对象的bbox(分别用bh和bo表示)，以及标识正在执行的交互动作a(从A类动作中选择)。
我们扩展了Fast R-CNN框架，增加了一个以人为中心的分支，该分支对动作进行分类，并为每个动作估计目标物体位置的概率密度。
具体来说，给定一组候选框，Fast R-CNN输出一组物体boxes和每个box的类标签。
我们的模型将其改进为，将一个三重值S^a_h,o赋给成对的候选人/对象框b_h, b_o和一个动作a。为此，我们将三重值分解为四个项:
在这里插入图片描述
s_h和s_o是从包含人（human ）和目标物体（object）的候选框b_h和b_o的Fast RCNN得到的分数，以人为中心的分支还会输出额外的两项：第一，s^a_h是为在b_h的人分配给行动a的分数。第二，μ^a _h是一个给定的人/动作对的交互目标的预测位置，根据人的外观计算。这可以用来计算g^a_h,o（带有b_o的物体是实际交互目标的可能性大小）。

3.1 模型组成

目标检测：首先，使用区域建议网络(RPN)生成对象建议框。然后，对于每个建议框b，我们使用RoiAlign提取特征，并进行对象分类和边界框回归，得到一组新的建议框，每个建议框都有一个关联的得分s₀（如果框是给人的就是s_h），这些新框只在推理过程中使用;在训练时所有分支都使用RPN建议框进行训练。
交互分类：以人为中心的分支的第一个作用是对每个人框b_h和动作a分配一个动作分类得分s^a_h。就像在对象分类分支中一样，我们使用RoiAlign从bh中提取特征，并预测每个动作a的得分。由于人可以同时做多个动作，所以对于检测到的多个动作在输出层使用二进制sigmoid分类器（预测的这一系列动作不会进行竞争）。训练目标是使ground-truth动作标签与模型预测的分数s^a_h之间的二元交叉熵损失最小。
目标定位：以人为中心的分支的第二个作用是根据人的外观(再次用b_h汇聚的特征表示)预测目标对象的位置。然而，仅根据b_h的特征来预测精确的目标位置是不太好的。所以我们的方法是先预测可能位置上的密度，并使用此输出与实际检测目标的位置一起来更精确地定位目标。
我们将目标物体位置的密度建模为一个高斯函数，其均值是基于人的外观和正在执行的动作预测的。形式上，以人为中心的分支预测μ^a_h，即给定的预测人的框b_h和动作a的目标物体的4维平均位置。然后我们将目标定位公式写为：
目标定位的高斯函数
我们可以使用g来测试对象框b_o与预测目标位置μ^a_h的兼容性。公式中b_o|h是b_o在相对于b_h的坐标中的编码，即为：
物体检测框在人检测框中的相对坐标编码
训练目标是使μ^a_h和b_o|h之间的smooth L1损失最小，其中b_o是用于交互的groundtruth真实目标物体的位置。我们将σ作为一个超参数，利用验证集经验地将其设置为σ = 0.3。
此外，由于这种预测是特定于动作和实例的，所以即使我们使用单峰分布对目标位置建模，我们的公式也是有效的。在第5节中，我们将讨论我们的方法的一个变体，它允许我们处理有条件的多峰分布，并为单个动作预测多个目标。
交互识别：模型只使用人的外观，并没使用目标物体的外观。为了提高我们的模型的鉴别能力和灵活性，我们可以将第一个公式中的s^a_h替换为一个交互分支，该分支基于人和目标对象的外观对一个动作进行评分。我们用s^a_h,o来表示这个替代项。
s^a_h,o的计算重用了s^a_h的计算，并基于b_o提取的特征并行执行类似的计算。将两个动作分类头(lA维的对数向量)的输出求和并通过一个sigmoid激活产生A个分数。图3 ©说明了这个过程。和前面一样，训练目标是使ground-truth动作标签和预测动作得分s^a_h,o之间的二元交叉熵损失最小。

3.2多任务训练

我们把HOI作为一个多任务学习问题。图中的三个分支一起训练，总的损失函数是模型中包含的所有损失函数之和：(1)目标检测分支的分类和回归损失，(2)以人为中心的分支的动作分类和目标定位损失，(3)交互分支的动作分类损失。
我们采用以图像为中心的[9]训练。所有的损失都在RPN提议和ground truth box上计算。和Faster R-CNN一样，我们从每幅图像中最多取样64个盒子用于目标检测分支，正box和负box的比例为1:3。以人为中心的分支最多计算16个与人类类别相关的b_h(他们的IoU与ground-truth person box重叠为0.5)。交互分支的损失只在正的三元组上计算，即(预测的<b_h, a, b_o>必须与一个ground truth真实的三元组关联)。除了以人为中心的分支中的动作分类术语的权重是2之外，所有损失术语的权重都是1，这样设置的性能更好。

3.3级联推理

在推理中，我们的目标是根据s^a_h,o找到得分高的三元组。虽然原则上这有O(n2)复杂度，因为它需要对每一对候选框进行评分，但我们提出了一个简单的级联推理算法，其主要计算复杂度为O(n)。
目标检测分支：首先检测图像中的所有对象(包括person类)。我们在得分高于0.05的盒子上应用非最大抑制(NMS)，设置IoU阈值为0.3(保守设置以保留大部分对象)。这一步生成一个新的更小的集合，n个box，得分为s_h和s_o。跟训练时不同的是，这些新的方框被用作其余两个分支的输入。
以人为中心的分支：下一步，我们对所有被分类为human的检测目标使用以人为中心的分支。对每个动作a和human框b_h，我们计算分配给a的得分s^a_h和相对于b_h目标物体定位的预测均值偏差μ^a_h。这一步的复杂度是O(n)。
交互分支：如果使用可选的交互分支，我们必须为每个动作a和一对b_h,b_o计算s^a_h,o。我们首先为每个b_h和b_o分别计算两个动作分类头的对数。然后把这些对数加起来再为每对b_h和b_o执行一次sigmoid。虽然最后一步复杂度是O(n²)，但实际上它的计算时间可以忽略不计。
实际上我们并不是为每一对可能的三元组计算，而是为每一对s^a_h,o最大的human/动作对计算，所以计算：
在这里插入图片描述
直观来看，上式鼓励在一个高评分动作的预测目标位置附近选择一个高可信度的对象。对每个b_h和动作a选中的b₀，最后模型的输出是s^a_h,o。对于没有交互的动作（如smile,run），就使用s^a_h，预测的<human,verb>的预测对即为s_h*s^a_h。

4.数据集和测试

数据集使用V-COCO(verbs in COCO)和HICO-DET。
在HOI任务中，最重要的AP是由<human, verb, object>组成的AP，称为“role AP”(AProle)。形式上满足一下三个条件的三元组可以被认为是TP：
（a）预测的human框b_h和ground truth的IoU值大于0.5。
（b）预测的object框b_o和ground truth的IoU值大于0.5。
（c）预测的动作a和实际的动作匹配。
当TP定义好之后，AP的计算便和普通的目标检测类似。注意这里没考虑目标物体分类的正确性，而是只针对于目标位置。但实际上是可以预测目标分类的。

实验

主干网络：特征金字塔网络(FPN)基于ResNet-50
在这里插入图片描述
单人多动作和多物体

总结和创新

1.在Faster RCNN后提出一个三分支的多任务网络，以人为中心，目标物体的位置检测是相对于human框来确定的，交互动作也是相对于human的。
2.在训练的时候三个分支一起训练，在test和推理过程中先进行目标检测分支，再将其计算输出b_h和b_o作为下两个分支的输入。后面具体的看论文。

叫我小草裙儿

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
Detecting and Recognizing Human-Object Interactions

Detecting and Recognizing Human-Object Interactions（HOI检测与识别）CVPR2018 Author:Georgia Gkioxari Ross Girshick Piotr Dollar Kaiming He摘要我们提出了一个以人为中心的的新模型。我们的假设是，一个人的外表——姿势、衣着、动作——是定位他们正在互动的物体的有力线索。为了利用这一线索，我们的模型学习根据被探测到的人的外观来预测目标物体位置上特定于动作的密度。我们的模型还会联合检测
复制链接

扫一扫