iCAN: Instance-Centric Attention Network for Human-Object Interaction Detection 论文阅读笔记

摘要

本文研究场景图中人-物交互问题。其核心思想是人或物体实例的外观包含指示线索,利用这些信息可以注意到图像中可以促进交互预测的部分。为了利用这些线索,研究者提出了一个以实例为中心的注意力模块,学习根据每个实例的外观动态突出显示图像中的区域。这种基于注意力的网络允许研究者选择性地聚合与识别 HOI相关的特征。

 

一、引言

 

HOI:人-物交互检测,旨在定位人、物体并识别人与物体之间的交互。图 1 中展示了 HOI 检测问题的一个例子。给定输入图像和物体检测器检测到的实例,研究者的目标是识别出所有的“人-动词-物体”三元关系组。检测和识别 HOI 是朝着更深入理解场景迈出的重要一步。而不是“哪里有什么?”(即,在图像中定位物体实例),HOI 检测的目标是回答“发生了什么?”的问题。研究 HOI 检测问题也为其他相关的高级视觉任务提供了重要线索,例如姿态估计 [2,40],图像标注 [24,39] 和图像检索 [21]。

Why attention?  加入人体姿势可能有助于识别“骑行”和“投掷”等行为,加入交互点可能有助于识别涉及手 - 物体交互行为,例如“用杯子喝水”和“用勺子吃饭”,加入背景可能有助于区分“用网球拍击中”和“用棒球棍击中”。

本文提出了一种以实例为中心的端到端可训练注意力模块,学习使用人或物体实例的外观来突出信息区域。实例(人或物体)的外观暗示了我们应该注意图像中的哪些位置。例如,为了更好地确定一个人是否拿有物体,应该将注意力集中在人手周围。另一方面,对于图像中的自行车,知道附近人的姿势有助于消除关于物体实例(例如,骑或推自行车)的潜在交互的歧义。本文提出的以实例为中心的注意力网络(iCAN)动态地为每个检测到的人或物体实例生成注意力映射,突出显示与该任务相关的区域。

贡献:

  • 引入了一个以实例为中心的注意力模块,它允许网络动态突出信息区域以改进 HOI 检测。
  • 在两个大型 HOI 基准数据集上取得了新的当前最佳性能。
  • 进行了详细的对比实验和误差分析,以确定各个组成部分的相对贡献,并量化不同类型的错误。
  • 发布了源代码和预训练模型,以促进将来的研究。

 

二、相关工作

 

对象检测:是场景理解的基础。本文使用现有的 faster R-CNN来定位人和物体实例。

视觉关系检测:。。。

Attention:。。。

Human-object interactions :。。。

 

三、以实例为中心的注意力网络(Instance-Centric Attention Network)

 

模型概述。研究者提出的模型包括以下三个主要流:(1)基于人类外观检测交互的人流; (2)基于物体外观预测交互的物体流;(3)用于编码人类和物体边界框之间的空间布局的配对流。基于现有的 Faster R-CNN 检测到的对象实例,使用所有的人 - 物体对生成 HOI 假设。然后融合来自各个流的动作分数以产生最终预测。

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值