Relational Context Learning for Human-Object Interaction Detection

Authors:

Introduction:

该文章研究的是人类物体交互检测的方法,之前的基于transformer的方法只是将整个图像输入进去得到人体、物体和交互动作的识别的结果,或者是只将人体物体的检测用一个transformer检测,而交互动作用另一个transformer检测。这样的不足在于缺少了人体、物体和活动间关系信息的挖掘。本文采用三个transformer提取三方面信息,并加入了三者关系学习模块。将该问题变成多任务学习的的形式来解决。

 

Motivation:

为什么要用transformer来做?因为目前transformer网络已经被证明能够在目标检测领域表现较好。但已有的方法仅限于将人与物体的上下文传播到交互上下文,还是存在缺失三者交互信息的学习,需要改进。

Contribution:

  • 提出了多路复用关系嵌入模块(multiplex relation embedding module)用于HOI检测。该模块利用HOI实例中的一元、二元和三元关系生成上下文信息。

  • 提出了关注力融合模块(attentive fusion module),有效地传播上下文信息以进行上下文交换。这个模块有助于在HOI检测中将必要的上下文信息传递给相应的任务。

  • 设计了一个三分支架构(three-branch architecture),用于学习更具区分性的特征,以应对子任务,即人体检测、物体检测和交互分类。

  • 提出的方法名为MUREN(Multiplex Relation Embedding Network),在HICO-DET和V-COCO数据集的基准测试中优于现有的方法,取得了更好的性能表现

Problem Definition:

问题的输入是图片,输出是要得到人体和物体的检测框位置,以及物体的类别和动作类别。

Method :

1. 图片encoding :采用CNN提取图片特征、加入位置特征,输入到encoder中得到图片的特征向量。

2. 三层transformer decoder:每层都加入一个自学习的任务token Q,根据Q进行多次的decoder,得到F

3. 关系信息提取MURE:三类F输入到MURE中进行关系信息学习

 

 

 

三类信息进行多次attention结果得到最终M 。

4. 基于关系信息得到最终预测结果

M作为每类任务的补充信息

 

结果通过全连接得到

5. 训练任务

 

多任务学习

 Experiments

数据集:HICO-DET :80种物体,117种交互,600种HOI。每种HOI至少10个样本

V-COCO:80种物体,29种交互。

指标: AP 物体检测准确读指标,通过计算每种HOI的AP来反应HOI的效果

实验结果:超过所有baseline

 

 消融实验:

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值