Relational Context Learning for Human-Object Interaction Detection

最新推荐文章于 2024-05-14 19:04:50 发布

大模型联邦学习

最新推荐文章于 2024-05-14 19:04:50 发布

阅读量122

点赞数

文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/weixin_42649288/article/details/131618970

版权

Authors：

Introduction：

该文章研究的是人类物体交互检测的方法，之前的基于transformer的方法只是将整个图像输入进去得到人体、物体和交互动作的识别的结果，或者是只将人体物体的检测用一个transformer检测，而交互动作用另一个transformer检测。这样的不足在于缺少了人体、物体和活动间关系信息的挖掘。本文采用三个transformer提取三方面信息，并加入了三者关系学习模块。将该问题变成多任务学习的的形式来解决。

Motivation：

为什么要用transformer来做？因为目前transformer网络已经被证明能够在目标检测领域表现较好。但已有的方法仅限于将人与物体的上下文传播到交互上下文，还是存在缺失三者交互信息的学习，需要改进。

Contribution：

提出了多路复用关系嵌入模块（multiplex relation embedding module）用于HOI检测。该模块利用HOI实例中的一元、二元和三元关系生成上下文信息。
提出了关注力融合模块（attentive fusion module），有效地传播上下文信息以进行上下文交换。这个模块有助于在HOI检测中将必要的上下文信息传递给相应的任务。
设计了一个三分支架构（three-branch architecture），用于学习更具区分性的特征，以应对子任务，即人体检测、物体检测和交互分类。
提出的方法名为MUREN（Multiplex Relation Embedding Network），在HICO-DET和V-COCO数据集的基准测试中优于现有的方法，取得了更好的性能表现

Problem Definition：

问题的输入是图片，输出是要得到人体和物体的检测框位置，以及物体的类别和动作类别。

Method ：

1. 图片encoding ：采用CNN提取图片特征、加入位置特征，输入到encoder中得到图片的特征向量。

2. 三层transformer decoder：每层都加入一个自学习的任务token Q，根据Q进行多次的decoder，得到F

3. 关系信息提取MURE：三类F输入到MURE中进行关系信息学习

三类信息进行多次attention结果得到最终M 。

4. 基于关系信息得到最终预测结果

M作为每类任务的补充信息

结果通过全连接得到

5. 训练任务

多任务学习

Experiments

数据集：HICO-DET ：80种物体，117种交互，600种HOI。每种HOI至少10个样本

V-COCO：80种物体，29种交互。

指标： AP 物体检测准确读指标，通过计算每种HOI的AP来反应HOI的效果

实验结果：超过所有baseline

消融实验：