论文笔记之Learning Human-Object Interaction Detection using Interaction Points

直接预测人-物的交互点和交互向量(用于分组),再与人/物检测结果关联得到最终结果。
CVPR2020接收
论文地址:https://arxiv.org/abs/2003.14023

1. 摘要

理解人与物体之间的相互作用是视觉分类的基本问题之一,也是实现详细场景理解的重要步骤。人与物体之间的交互(HOI)检测力求既定位人与物体,又确定它们之间的复杂交互。 大多数现有的HOI检测方法都是以实例为中心的,其中基于外观特征和粗糙的空间信息来预测所有可能的人-物体之间的交互。 作者认为,仅外观特征不足以捕获复杂的人与物体的相互作用。因此,在本文中,作者提出了一种新颖的全卷积方法,该方法直接检测人与物体之间的相互作用。 网络会预测交互点,这些交互点可以直接对交互进行定位和分类。与密集预测的交互向量配对,这些交互与人类和物体检测相关联以获得最终预测。

2. 相关工作

在现有的人物交互(HOI)检测方法中,[Visual semantic role labeling]的工作是第一个探索视觉语义角色标记问题的方法。 该问题的目的是定位代理(人)和物体以及检测它们之间的交互。 [Detecting and recognizing human-object intaractions]的工作引入了一种以人为中心的方法,称为InteractNet,该方法扩展了Faster R-CNN框架,并带有一个附加分支,以了解目标位置上特定于交互作用的密度图。Qi等人[Learning human-object interactions by graph parsing neural networks]提出利用图卷积神经网络,并将HOI任务视为图结构优化问题。 Chao等人,[Learning to detect human-object interactions]建立了一个基于人对目标区域和成对交互分支的多流网络。 该多流架构的输入是来自预训练检测器(例如,FPN )和原始图像的预测边界框。 在这种多流体系结构中,人流和物体流基于从骨干网提取的外观特征,以生成关于检测到的人和物体边界框的置信度预测。另一方面,成对流通过将两个框(人和物体)结合起来,简单地编码人与物体之间的空间关系。以后的工作通过例如引入以实例为中心的注意力[iCAN:
Instance-centric attention network for human-object interaction detection],姿势信息[Transferable
interactiveness knowledge for human-object interaction detection]和基于上下文感知的外观特征的深层上下文注意力[Deep contextual attention for human-object interaction detection],扩展了上述多流体系结构。

传统方法计算昂贵,且仅根据外观特征和粗糙的空间信息不足以捕获复杂的交互作用。

3. 本文方法

3.1 总体结构

在这里插入图片描述
主要分为3个部分,特征提取部分、交互生成部分(生成交互点、交互向量)、交互分组部分(根据预测框,交互点,交互向量得到最终结果)。
Backone网络使用的是Hourglass网络,使用Faster RCNN + ResNet50-FPN获得预测框。
Hourglass网络输出的特征图大小为在这里插入图片描述,其中H,W是输入图像的高度和宽度,S是步幅,D是输出通道(S设置为4)。

交互点定义为人-物对的中心点,且是交互向量的起点。

3.2 交互生成

3.2.1 交互点分支

输入提取的特征,用单个3*3卷积,生成大小为在这里插入图片描述的交互点热图。C表示交互种类的数量。

训练时,交互点由人和物中心点生成的GT高斯热图监督,推理时采用高斯热图的峰值的top-k个点(cornernet中的方式)。

不同于目标检测的一个点只能代表一个物体,本文一个点可以为多个交互类别(人同时与多个物体交互)。

3.2.2 交互向量分支

在这里插入图片描述
交互向量分支预测指向人类中心点的交互向量在这里插入图片描述

交互点的定义:在这里插入图片描述
交互向量的定义:在这里插入图片描述
输入提取的特征,使用单个3*3卷积生成无符号交互向量图V,大小为在这里插入图片描述,两个值,一个作用于水平方向,一个作用于垂直方向。

推理时,根据下式,生成4个人类中心的可能位置:
在这里插入图片描述

3.3 交互分组

满足在这里插入图片描述条件的分为一组。

分组策略:
在这里插入图片描述
图中,四个绿色点由在这里插入图片描述计算出;紫色的四个点由人/物框确定;然后基于这八个点计算向量长度
在这里插入图片描述
然后以上的值满足下式则为正例:
在这里插入图片描述
d_t为过滤时的阈值。

算法表示:
在这里插入图片描述

3.4 训练

预测交互点的loss采用和anchor-free检测器一样的改动的focal loss:
在这里插入图片描述
N_p 是图中的交互点数量。

对于交互向量预测,使用在交互点P_k上的无符号交互向量的值在这里插入图片描述作为GT。这部分使用的是L1 loss:
在这里插入图片描述
V_pk是在点P_k预测的交互向量。

总的损失函数:
在这里插入图片描述
λ_v设置为0.1.

4. 实验

检测分支在COCO上预训练,使用人的预测框置信度大于0.4,物体的预测框置信度大于0.1,设置的低是因为分组可以过滤掉大量的负例。

4.1 SOTA对比

V-COCO上
在这里插入图片描述
最后一行表示在HICO-DET上预训练,再在V-COCO上微调,测试。

HICO-DET上
在这里插入图片描述

4.2 消融实验

在这里插入图片描述
Angle-filter: 交互点p与人体中心点H和物体中心点O具有固定结构。过滤掉在向量PH和PO之间的小于阈值的HOI对。

Dist-ratio-filter: 在训练时,PH和PO的比例设置为1,过滤掉比例在max(PH,PO)和min(PH,PO)之间的HOI对。

交互分组策略分为两部分,interaction-box和corner-dist,来验证三个软约束在这里插入图片描述的效果。
interaction-box和corner-dist分别是前两个式子和最后一个式子。
发现仅仅interaction-box + interaction points就获得了巨大提升。再加上corner-dist也获得了挺大的提升。

Center pool
centernet中的中心池化,在交互点和交互向量之前使用,略有改善性能。
在这里插入图片描述
稀有类和非稀有类的交互合适的分数阈值应该是不同的,因为稀有类样本较少,所以分数一般较低。因此动态阈值获得了不错的效果。

4.3 局限

  • 长尾类对于人物交互检测具有较大挑战。
  • 多个HOI对不能共享相同的交互点,但这种情况很少见。
卡方自动交互检测(chi-square automatic interaction detection,CHAID)是一种基于卡方检验的决策树算法,被广泛用于统计分析。该算法可以用于分类问题和预测分析。 CHAID算法的基本思想是将数据集根据自变量的交互效应分裂成不同的子集,可以提供详细的解释和预测结果。它通过卡方检验来确定最佳的分割点,以迭代的方式构建决策树。每次迭代时,算法会根据某个预测变量的不同取值对数据进行划分,并基于卡方值选择最佳的分裂方式。 CHAID算法在数据集中每个自变量的每个可能取值都进行卡方检验,以确定最佳的分割点。然后,根据卡方值选择最佳的分割点,并将数据集分成两个子集。该过程会不断重复,直到达到停止准则为止。停止准则可以是达到预定的树大小、结点中样本数过小或不显著等。 CHAID算法的主要优点是可以处理多变量之间的交互效应,并生成易于解释的树状结构。它可以在数据集中发现非线性关系和交互作用,适用于不同类型的数据集,包括分类变量和连续变量。此外,CHAID算法对缺失数据和异常值也具有鲁棒性。 然而,CHAID算法也存在一些局限性。首先,它在处理大规模数据集时可能会遇到计算复杂度的问题。其次,CHAID算法在处理分类变量较多或多级分类变量时,决策树可能会变得非常庞大,难以解释。最后,CHAID算法对于高维数据集可能会出现过拟合的情况,需要采取适当的剪枝方式。 总的来说,CHAID算法是一种有力的统计分析方法,可以用于识别自变量之间的交互关系,并进行分类和预测。它在实际应用中具有广泛的应用前景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值