Learning to Detect Human-Object Interactions 文章解读_hico-det 数据集　百度-CSDN博客

本文链接：https://blog.csdn.net/Cloris_Sue/article/details/129865680

本文提出了HOI检测任务，即在图像中检测人与对象交互，介绍了HICO-DET数据集，扩展了HICO以支持实例标注。同时，提出了HO-RCNN模型，利用InteractionPattern捕捉空间关系，改进了HOI的检测能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Learning to Detect Human-Object Interactions，WACV，2018

论文下载
 code：http://www.umich.edu/∼ywchao/hico/

摘要

主要研究领域：定义了HOI detection任务：在静态图像中检测人-对象交互（HOI）的问题，也就是给定一张图片，预测一个人和一个对象边界框并预测连接他们的交互类别。
主要工作：1）介绍了HICO-DET数据集，一个新的HOI检测基准，是将目前的HICO分类benchmark添加实例标注增强得到的。2）提出了Human-Object Region-based Convolutional Neural Networks (HO-RCNN).这个网络的核心是Interaction Pattern，这个交互模式表征了两个边界框之间的空间关系。

Introduction

目前HOI方法中存在的问题：在有限的HOI类别的小数据集上验证，比如有10个类别的PASCAL VOC数据集和有40个类别的Stanford 40 Actions数据集。并且这些数据集对于每个物体来说只提供有限种类的交互类别。导致没有办法识别一个算法是否真的能够识别交互，或者它是否只是简单地识别当前的物体。这个问题随着HICO(Humans interacting with Common Objects)数据集的提出得到解决，这个数据集是一个大型的数据集包含了600个HOI类别，超过了80个常见的物体类别并且每个对象类别具有不同的交互类别。但是HICO数据集只能用来HOI分类，也就是判断一个HOI类别是不是在图像中出现，并不能准确地定位图像中出现的交互作用及其对象。

定义HOI Detection：正式的，将HOI检测问题定义为预测一对边界框——首先是一个人，第二个是一个对象——并识别交互类别。

contributions：1）介绍了HICO-DET数据集，提供了超过150K个人-对象对的注释实例，跨越了HICO中的600个HOI类别，即每个HOI类别平均有250个实例。2）提出了Human-Object Region-based Convolutional Neural Networks (HO-RCNN).这个网络的核心是Interaction Pattern，这个交互模式表征了两个边界框之间的空间关系。

HO-RCNN

HO-RCNN是一个多流网络，它分两步检测HOIs。首先使用最先进的人和对象探测器生成人-物体区域对的proposals。然后，每对人-物体proposal被传递到ConvNet中以生成HOI分类分数。
在这里插入图片描述
整体架构：首先生成人-对象区域对的proposals。多流体系结构由三个流组成，分别为：1）human stream从被检测到的人类中提取局部特征。2）object stream从检测到的对象中提取局部特征。3）pairwise stream提取编码被检测到的人和对象之间的成对空间关系的特征。每个流的最后一层是一个二值分类器，它输出HOI的置信度分数。最终的置信度分数是通过将所有流中的分数相加而获得的。

人和对象分支：给定一个人-物体的proposal，首先使用边界框裁剪完整的输入图像，然后调整大小到固定的大小。然后将这个归一化的图像patch传递到一个卷积网络中提取特征，最后一层是大小为K的全连接层，其中K是感兴趣的HOI类的数量，每个输出对应于一个HOI类的置信度分数。

成对分支：给定一个人-对象proposal，成对流提取编码人和对象之间空间关系的特征，并为每个HOI类生成一个置信分数。在这不是直接将bbox的坐标输入DNN，而是提出了Interaction Patterns来输入DNN。
给定一对边界框，它的Interaction Patterns是一个有两个通道的二值图像：第一个通道中被第一个边界框包围的像素值为1，在其他地方的值为0；第二个通道中被第二个边界框包围的像素值为1，在其他地方的值为0。但有两个细节：1）Interaction Patterns应该具有平移不变性，因此，从交互模式中删除了“attention window注意窗口”之外的所有像素，即包围两个边界框的最紧密的窗口。这使得成对流只关注包含目标边界框的bbox，而忽略全局上下文。2）第二，Interaction Patterns的长宽比可能会随着注意窗口的不同而有所不同。这是有问题的，因为DNN需要固定大小（和长宽比）的输入。因此该文提出resize without/with padding zeros两种，这使得Interaction Patterns的大小标准化，同时保持注意窗口的长宽比。
在这里插入图片描述
训练：HO-RCNN生成HOI置信度分数。正如在[1]中提到的，一个人可以同时出现对目标对象执行不同类型的动作，例如，一个人可以同时“骑着”和“抱着”自行车。因此，HOI识别应该被视为一个多标签的分类问题。因此，该文通过对每个HOI类别的分类输出应用一个sigmod交叉熵损失来训练HO-RCNN。

构建HICO-DET数据集

对于每个图像，注释器都会有一个句子描述，比如“一个骑自行车的人”，并被要求继续进行以下三个步骤：
第一步：在每个人周围画一个边界框：第一步是在所描述的交互中涉及的每个人周围绘制边界框。
步骤2：在每个对象周围绘制一个边界框：第一步是在所描述的交互中涉及的每个对象周围绘制边界框。
步骤3：将每个人链接到对象：第一步是在所描述的交互中涉及的每个对象周围绘制边界框。请注意，如果一个人正在与多个对象交互，那么他可以链接到多个对象；如果一个对象与多个人交互，那么一个对象可以与多个人联系起来。
数据集的数据统计表如下：
在这里插入图片描述

实验

设置：人或者对象的bbox和ground truth之间的最小交并比大于0.5则算作TP样本。指标为mAP。测试了三个不同的HOI类别集的mAP：(a)在HICO中的所有600个HOI类别（完整），(b) 138个训练实例少于10个的HOI类别（Rare），和© 462个HOI类别有10个或更多的训练实例（非罕见）。还考虑了两种不同的评估设置： (1)已知对象Known Object设置：对于每个HOI类别，只在包含目标对象类别的检测上评估，这个时候的挑战就在于定位HoI并对交互进行分类。(2)默认值Default设置：对于每个HOI类别，在完整的测试集上评估检测结果，包括包含和不包含目标对象类别的图像。这是一个更具挑战性的环境还需要区分没有目标的图像。