Transferable Interactiveness Knowledge for Human-Object Interaction Detection

Human-Object Interaction (HOI) Detection指出人和物如何交互的(包含有无交互以及交互的类型判断,属于一步到位
Interactiveness Knowledge指出人和物有没有发生交互 ,促进后面类别检测(来源:通过交互网络从多个HOI 数据集学习。作用:用来区分有无交互,再对有交互的进行分类,属于两阶段)
如下图FIgure2

在这里插入图片描述

在这里插入图片描述

本文的思想方法利用迁移学习的交互知识(人和物是否发生交互)信息,促进人和物交互检测。在分类之前,先判断出人和物有无交互。
interactiveness network见上图figure1:交互式网络是一种可转换的知识学习者,可与任何HOI检测模型合作,以达到理想的结果
HOI detection主要作用:.检索人和对象的位置,并从静态图像推断交互类. 。。。介绍:作为视觉关系的一个子任务HOI 与人的身体和物的理解有着密切的关系它对于理解行为是至关重要。
| Introduction

第一段讲了:HOI detection主要作用:.检索人和对象的位置,并从静态图像推断交互类.
介绍:作为视觉关系的一个子任务,HOI 与人的身体和物的理解有着密切的关系,它对于理解行为是至关重要的,并且可以促进对行为的理解.

第二段:通常:需要先检测人和物,给出一个照片和检测结果,人和物通常成对,HOI detection 将这些对进行HOI分类。

第三段:讲了 Interactiveness Knowledge,以及our method(two stage
process:

first stage: we first discriminate a human-object pair as interactive
or not
second stage : classify it as specific HOIs

两阶段的好处:
1)这样的两阶段预习将减轻学习困难,并引入层次预测。
2)需要特别注意的是,交互性提供了额外的信息来帮助HOI分类,并且独立于HOI类别设置。这意味着它可以跨数据集传输,并用于增强为不同HOI设置而设计的HOI模型。

在这里插入图片描述

Interactiveness network PP利用人、物和空间位姿流,从人和物的外观、空间位置和人的位姿信息中提取特征。
HOI modelsC
上图 LISLowgrade Instance Suppressive Function
上图 NISNon-Interaction Suppression
P网络中的人流和C 网络共享权重,P网络中的物流和C 物流网络共享权重

=======4.论文的第四部分方法详解=

4.1. overview:

从语义的角度来看,交互知识提供了比传统的HOI范畴更普遍的信息。因为任何一个人-物对都会被分配一个根据HOI注释的二值交互标签,二值标签指有交互和没有交互两类.

来源:交互性知识可以从不同的HOI类别设置的多个数据集学习,并转移到任何特定的数据集。

(interactiveness predictor)P交互性预测网络作用:利用交互性知识来减少由于过多的非交互候选对造成的误报。
Representation Network)Rfeature extractor作用:R is responsible for feature extraction from detected instances
(Classification Network) CHOI classifier作用: C utilizes node and edge features to perform HOI classification

4.2 Representation and Classification Networks

Human and Object Detection:
使用检测框架ResNet-50-FPN,得到人和物的边界框,和相应的分数。检测的结果将会用设定的阈值按照分数筛选。
Representation Network
a Faster R-CNN [22] with ResNet-50

HOI Classification Network
对于我们的分类网络C,总共三个流,人物流,物体流,空间流。我们利用一个人流和一个对象流来提取人、对象和上下文特征.空间流用于编码实例的空间位置。

在这里插入图片描述

4.3. Interactiveness Network:
交互网络主要跨HOI数据集学习交互知识。并最终用于判断是否有人和物的交互.
网络的输入:这里的输入也是三个流,人流和物流,空间和姿态融合的流。

交互可以通过提取和融合必要的信息,进行学习。
1.The visual appearance of human and object
2. spatial location and human pose information.

图4 中上面部分,person2和person1就是根据空间位置判断有无交互
图4中下面部分,两个人都离动物很近。这时候。根据人的姿态,判断有无交互。
所以将视觉图像、空间位置和人体姿态信息结合起来,是实现交互性识别的关键。

网络P:这里的人流分支H,物流分支C和网络R里面的分支共享权重

在联合训练中,hp、O P块可以与hc、O C共享权重。该权值共享策略能够保证多任务训练中信息共享,更好地优化P和C。
4.4 Interactiveness Knowledge Transfer Training:
利用R、P和C,我们的框架有两种实现模式:默认模式下的层次联合训练和迁移学习模式下的迁移训练。
Hierarchical Joint Training在这里插入图片描述
a)上图是默认模式下的联合训练

Non-Interaction Suppression (NIS) ·
a)前面的图是训练,interactiveness discrimination and HOI classification两个任务联合训练

后面的那个图是测试。先判断有无交互,再进行分类

在这里插入图片描述
图(b)前面的上半部分P,在不同的数据集训练一个transferable knowledge learner,
前面的下半部分C,考虑到不同数据集中HOI类别设置的多样性,C必须在单一数据集上进行一次训练。

4.5 Testing with Non-Interaction Suppression:

在这里插入图片描述

在这里插入图片描述
完结,下面实验部分请看论文。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值