论文笔记之Transferable Interactiveness Knowledge for Human-Object Interaction Detection

利用交互性学习网络在多个数据集上学习交互性知识,然后根据输入人-物对得出是否有交互,从而抑制没有交互的人-物对。
CVPR2019录用
论文地址:https://arxiv.org/abs/1811.08264

1. 摘要

人与物体的交互(HOI)检测是了解人类如何与物体交互的一个重要问题。在本文中,作者探讨了交互性知识,该知识指示人与物体是否相互交互。 作者发现,无论HOI类别设置如何,都可以跨HOI数据集学习交互性知识。

因此本文的核心思想是利用交互性网络从多个HOI数据集中学习一般的交互性知识,并在进行HOI分类之前进行非交互抑制。 考虑到交互的普遍性,所以交互性网络是可转移的知识学习者,可以与任何HOI检测模型配合使用以获得理想的结果。

2.相关工作

与HOI识别是图像级别分类问题不同,HOI检测需要检测交互的人-物对并在实例级别对它们的交互进行分类。 借助DNN和大规模数据集,最近的方法取得了重大进展。 Chao等提出了一种结合视觉特征,空间位置的多流模型来帮助解决这个问题。 为了解决长尾问题,Shen等研究了zero-shot学习问题,并分别预测了动词和宾语。 在[Detecting and recognizing human-object interactions]中,引入了一种特定于动作的密度图估计方法来定位与人互动的物体。 在[Learning human-object interactions by graph parsing neural networks]中,齐等人提出的GPNN结合了DNN和图形模型,该模型使用消息解析来迭代更新状态并对所有可能的人-物对/边缘进行分类。 Gao等人开发了一个以实例为中心的注意力模块来增强来自感兴趣区域的信息并促进HOI分类。

通常,这些方法是分阶段进行的,可能会遭受严重的非交互对控制问题。 为了解决这个问题,作者利用交互性来明确区分非交互对,并在HOI分类之前将其抑制。

3. 本文方法

3.1 总体结构

在这里插入图片描述
主要分为三个部分:R(提取特征)、P(交互性网络,学习交互性,进行非交互抑制)、C(HOI分类网络执行HOU分类)。CNN Block为残差块。P的人分支和物分支与C的共享参数(图中虚线连接的)。

训练时,P和C一起训练,因为通常情况下非交互的实例的比例较大,所以P能提供一个强大的监督信号来优化网络。

测试时,P分为两个阶段使用:
(1)利用学习到的交互性知识来评估边缘的交互性;
(2)综合P和C的HOI得分进行分类。

3.2 Representation and Classification Networks

(1)检测人和物

使用ResNet-50-FPN的检测器进行检测边框和得分。

(2)Representation Network

使用修改的基于resnet50的faster rcnn作为特征提取网络,该部分在训练期间被冻结,充当特征提取器。

(3)HOI分类网络

多流网络,后期进行分数融合,利用人分支、物分支提取人、物的特征和上下文特征。每个分支都有池化层和全连接层。

在这里插入图片描述
spatial-pose流输入包括3种图,姿态图、人图、物图。姿态和位置有利于交互性的判断。

spatial流用来编码实例的空间信息,输入为两通道张量,一个人图,一个物图,在人/物预测框中值为1,其余位置值为0.

每个分支先预测HOI分类,然后融合三个分支的预测作为结果。

3.3 Interactiveness Network

该部分主要包括三个分支,人检测分支、物检测分支、空间姿态检测分支。

(1)人分支和物分支

首先R部分提取的特征传入网络,经过ROI Pooling,得到预测框,传入H^p, O^p(这部分结构和C中的对应部分一样),再经过之后的全局平均池化和全连接层,输出人的特征图和物的特征图f_h和f_o。

(2)Spatial-pose分支

对于每一对人/物,估计人体的17个关键点,将这些关键点按照灰度值,从0.15到0.95连接起来,不同的值表示不同的身体部位。其他部分值为0 。最后统一变形到64*64大小来构建姿态图。然后将姿态图与spatial流中的人/物图连接(拼接)起来,作为spatial-pose流的输入。然后经过最大池化和全连接层提取三个分支(人、物、空间姿态)的特征f_sp 。

最后将该输出f_sp与(1)中的输出f_h和f_o拼接起来以进行交互性判别。

置信度给出:
在这里插入图片描述
L(sh,so)是名为低级实例抑制(LIS)的新的权重函数。
在这里插入图片描述
强调高等级的人/物,并将高级的与低级的实例分开。
在这里插入图片描述
它以人/物的检测得分作为输入。

其中:
在这里插入图片描述
P(.)是logistic函数的一部分,T,K,w的值由数据驱动的方式确定。

低级(置信度低)的边界框将具有低权重,直至其得分高于阈值为止。

3.4 训练和测试

3.4.1 训练

基于R,P和C,框架具有两种使用模式:默认模式下的分层联合训练和转移学习模式下的交互性传递训练。

  • 分层联合训练

在默认模式下,引入了分层联合训练方案,如下图所示:
在这里插入图片描述
即交互性鉴别和HOI分类是分层、联合(共享权重)训练的。

损失函数可以表示为:
在这里插入图片描述
其中Lc为HOI分类的交叉熵损失,Lp为二元分类交叉熵损失。

此模式下,当将一对预测为诸如“切蛋糕”之类的特定HOI时,P必须同时给出预测“交互”才可作为结果。

以下将默认模式下的框架称为在这里插入图片描述,其中“ D”表示“默认”。

  • 交互性传递训练
    在这里插入图片描述
    跨数据集进行学习,可以与在不同数据集上的多个C合作。

相反,考虑到不同数据集中HOI类别设置的多样性,C必须在单个数据集中进行训练。 因此,特定HOI的知识难以传递。

所以为了更好的表示可传递性和增强交互性,设置了几种学习方式。
(1)在这里插入图片描述在1个数据集上训练P并将P应用于另一个数据集。

(2)在这里插入图片描述在2个数据集上训练P并将P分别应用于它们。

为了比较交互性知识和HOI知识的可传递性,为C设置了传递学习模式,即首先在A数据集上训练并测试C,然后替换C中的最后的FC层,并在B数据集上微调1个epoch,最后在B数据集上测试。
(3)在这里插入图片描述一个数据集上训练C(没有P)并将其应用于另一数据集。

(4)在这里插入图片描述在HICO-DET上训练并测试C。

3.4.2 测试

用P计算所有边缘(交互)的交互得分,然后得分小于某个阈值的交互抑制掉。这样原始稠密的交互图G变为稀疏的交互图G’。

C的HOI的分类得分向量:

在这里插入图片描述
其中在这里插入图片描述是输入特征。

最终的HOI分类得分为:
在这里插入图片描述

4. 实验

在这里插入图片描述

4.1 SOTA对比

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述的巨大提升表明了HOI知识良好的可传递性和交互知识的有效性。

对于在这里插入图片描述,前者比后者提升了3点多,表明了交互性知识比HOI知识更适合并且更易于传递。

4.2 消融实验

(1)NIS
在这里插入图片描述
NIS后非交互实例的数量明显下降,证明了NIS的有效性。

(2)消融实验
在这里插入图片描述
第一个3行部分分别代表无NIS、无LIS、两者都无的情况下的结果。发现两者都无性能下降的最多,无NIS比无LIS下降的多。

第二个3行分别表示只有人分支、只有物分支、只有空间姿态分支的情况下的结果,发现3个分支中,空间姿态分支贡献最大,但是提高性能也少不了人/物分支。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值