paper reading(2)-HOTR: End-to-End Human-Object Interaction Detection with Transformers

注:该文章取自CVPR2021
源码:

Abstract

首先介绍了一下HOI任务:检测人与物体交互关系的任务,包含
i)定位交互的主体和客体
ii)交互标签的分类
大多数现有的方法是通过检测人和对象,分别推断每一对直接的关系,但这种方法是间接地解决问题。
本文提出了HOTR框架,基于transformer的encoder-decoder结构直接预测(人,物体,交互)的三元组集合。这种预测集合的方法,有效地利用了内部语义关系,节约了时间成本。

1. Introduction

先前解决HOI的方法是,先进行对象检测,然后将<人,对象>进行后处理,间接、耗时、计算量大。
parallel HOI detectors:第二部分related work会进行详细介绍。
HOI detection存在的问题:i)需要额外的后处理ii)关系建模有助于目标检测,但考虑高级别的依赖关系是否有效,还需进一步研究。
HOTR (Human-Object interaction TRansformer)算法利用直接的集预测方法一次性预测场景中的一组交互。作者设计了一个基于transformer的encoder-decoder结构来预测一组HOI的triplet.
首先,集合级别的直接预测省去了手工后处理的阶段;模型以端到端方式进行训练,将预测的triplet与ground-truth进行匹配作为loss。其次,transformer的自注意机制使得模型能够挖掘人和物体之间的上下文关系以及它们之间的相互作用,使得集合级预测框架更适合于高

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值