Transferable Interactiveness Knowledge for Human-Object Interaction Detection

最新推荐文章于 2022-10-21 17:42:15 发布

okmacong

最新推荐文章于 2022-10-21 17:42:15 发布

阅读量747

点赞数 1

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/okmacong/article/details/107949341

版权

深度学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Human-Object Interaction (HOI) Detection	指出人和物如何交互的(包含有无交互以及交互的类型判断，属于一步到位）
Interactiveness Knowledge	指出人和物有没有发生交互，促进后面类别检测（来源：通过交互网络从多个HOI 数据集学习。作用：用来区分有无交互,再对有交互的进行分类，属于两阶段）
如下图	FIgure2

在这里插入图片描述

本文的思想方法	利用迁移学习的交互知识（人和物是否发生交互）信息，促进人和物交互检测。在分类之前，先判断出人和物有无交互。
interactiveness network	见上图figure1：交互式网络是一种可转换的知识学习者，可与任何HOI检测模型合作，以达到理想的结果
HOI detection	主要作用：.检索人和对象的位置，并从静态图像推断交互类. 。。。介绍：作为视觉关系的一个子任务HOI 与人的身体和物的理解有着密切的关系它对于理解行为是至关重要。

| Introduction

第一段讲了：HOI detection主要作用：.检索人和对象的位置，并从静态图像推断交互类.
介绍：作为视觉关系的一个子任务，HOI 与人的身体和物的理解有着密切的关系，它对于理解行为是至关重要的，并且可以促进对行为的理解.

第二段：通常：需要先检测人和物，给出一个照片和检测结果，人和物通常成对，HOI detection 将这些对进行HOI分类。

第三段：讲了 Interactiveness Knowledge,以及our method（two stage
process:

first stage: we first discriminate a human-object pair as interactive
or not
second stage : classify it as specific HOIs

两阶段的好处：
1）这样的两阶段预习将减轻学习困难，并引入层次预测。
2）需要特别注意的是，交互性提供了额外的信息来帮助HOI分类，并且独立于HOI类别设置。这意味着它可以跨数据集传输，并用于增强为不同HOI设置而设计的HOI模型。

在这里插入图片描述

Interactiveness network P	P利用人、物和空间位姿流，从人和物的外观、空间位置和人的位姿信息中提取特征。
HOI models	C
上图 LIS	Lowgrade Instance Suppressive Function
上图 NIS	Non-Interaction Suppression
P网络中的人流和C 网络共享权重，	P网络中的物流和C 物流网络共享权重

=======4.论文的第四部分方法详解=

4.1. overview：

从语义的角度来看，交互知识提供了比传统的HOI范畴更普遍的信息。因为任何一个人-物对都会被分配一个根据HOI注释的二值交互标签,二值标签指有交互和没有交互两类.

来源：交互性知识可以从不同的HOI类别设置的多个数据集学习，并转移到任何特定的数据集。

(interactiveness predictor）P	交互性预测网络	作用：利用交互性知识来减少由于过多的非交互候选对造成的误报。
Representation Network）R	feature extractor	作用：R is responsible for feature extraction from detected instances
（Classification Network） C	HOI classifier	作用： C utilizes node and edge features to perform HOI classification

4.2 Representation and Classification Networks

Human and Object Detection:
使用检测框架ResNet-50-FPN，得到人和物的边界框，和相应的分数。检测的结果将会用设定的阈值按照分数筛选。
Representation Network
a Faster R-CNN [22] with ResNet-50

HOI Classification Network
对于我们的分类网络C，总共三个流，人物流，物体流，空间流。我们利用一个人流和一个对象流来提取人、对象和上下文特征.空间流用于编码实例的空间位置。

在这里插入图片描述

4.3. Interactiveness Network：
交互网络主要跨HOI数据集学习交互知识。并最终用于判断是否有人和物的交互.
网络的输入：这里的输入也是三个流，人流和物流，空间和姿态融合的流。

交互可以通过提取和融合必要的信息，进行学习。
1.The visual appearance of human and object
2. spatial location and human pose information.

图4 中上面部分，person2和person1就是根据空间位置判断有无交互
图4中下面部分，两个人都离动物很近。这时候。根据人的姿态，判断有无交互。
所以将视觉图像、空间位置和人体姿态信息结合起来，是实现交互性识别的关键。

网络P:这里的人流分支H，物流分支C和网络R里面的分支共享权重

在联合训练中，hp、O P块可以与hc、O C共享权重。该权值共享策略能够保证多任务训练中信息共享，更好地优化P和C。
4.4 Interactiveness Knowledge Transfer Training：
利用R、P和C，我们的框架有两种实现模式:默认模式下的层次联合训练和迁移学习模式下的迁移训练。
Hierarchical Joint Training 在这里插入图片描述
a)上图是默认模式下的联合训练