Interact as You Intend: Intention-Driven HOI Detection

本文提出了一种意图驱动的交互检测(iHOI)框架,利用人体姿态和目光信息来辅助人类-物体交互(HOI)的检测和识别。模型包括目标检测模块和三个分支,分别处理单独的人和物特征、人-物pairwise特征以及基于目光的环境敏感信息。此外,还提出了一种hardnegative采样策略来解决误分组问题。实验结果显示,该方法在两个基准数据集上达到SOTA性能。
摘要由CSDN通过智能技术生成
IEEE多媒体汇刊Author:Bingjie Xu, Junnan Li, Yongkang Wong

摘要

为了与物体交互,人类会根据自己的意图引导注意力和移动身体。具体而言,提出的human intention-driven的HOI检测(iHOI)框架根据人体关节到物体实例的相关距离进行建模。也会利用人体注视来指示在弱监督情况下的参与上下文区域。除此之外,我们采用了一种hard negative采样策略来处理误分组问题。

1.介绍

以往的工作并没有特别考虑到人类经常表现出有目的的行为,并有意完成任务。在这篇工作中,我们提供了一个新的计算角度来利用两种视觉可见的意图形式:1)明确表达人类意图的human gaze。2)隐式表达人类意图的body posture。
在本文工作中,·我们旨在处理社交场景图片中的HOI精确检测和识别。我们提出了一个由意图驱动的JOI检测框架(iHOI),它由一个目标检测模块和三个分支构成。第一个分支利用独个特征,第二个分支对不同的人-物特征嵌入进行建模,第三个分支使用弱监督下的多注视文本域。人体姿态信息已由人体关节到物体实例的相关距离处理进特征空间中。本文主要贡献为:
(1)探索了如何通过意图来检测和识别社交场景中的HOI,通过gaze和姿态信息来辅助HOI检测。
(2)提出了一个有效的hard negative sample mining策略来处理HOI中误分组的问题。
(3)用切除实验试了一下两个benchmark,达到了SOTA。

2.相关工作

视觉关系检测:Nothing useful!
HOI理解:Nothing useful!
HOI中的gaze:人类注视方向的预测有助于显著性预测。Nothing useful!

3.方法

任务表述如下:给定一个2D图I作为输入,需要检测和识别其中的<人,动作,目标>三元组。
在这里插入图片描述

A.模型结构

首先,给定一张输入图片I,我们先使用Detectron中的Faster RCNN来检测所有的人和物,产生一系列检测到的bboxb=(b1,…bm),其中m代表检测实例的总数量。bbox分别为bh和bo,置信分数分别为sh和so。由于我们的目标是对意图建模,而不是提取特征,而且这两个实验数据集都缺乏人体关节的ground-truth,所以人体关节定位和注视方向通过从其他社交动作数据集(openpose)上迁移学习过来的。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值