Cascaded Human-Object Interaction Recognition论文阅读笔记

笔记

  1. 现有的方法大都采用single-stage的推理线,考虑到任务的复杂性,作者提出了一种采用级联结构,多分支,从粗糙到细致的HOI理解。
  2. 如图1,作者的模型包含了一个实例定位网络和一个交互识别网络。这两个网络都以级联的形式工作,通过实例定位网络,一步一步的增强选择的实例,proposal的质量提高,对于接下来的相关表示也是非常有用的。而且也可以实现更好的动作预测。
    在这里插入图片描述
  3. 如图2可以看出两种模式的区别,a表示的是single stage方法,b是作者提出的级联结构,这种结构不仅可以解决HOI检测的问题,还可以用于图像分割。
    在这里插入图片描述
  4. 图3a是整个网络的pipeline,输入一个图片,首先通过backbone提取特征,然后通过L定位proposal,然后配对采样, 再通过R识别动词。图b是R中的RCM模块。
    在这里插入图片描述
  5. 首先是L部分,即Instance Localization Network:这部分的输出是一个人物区域的集合,有许多标定的人物框和物体框,这些框经过采样再送入下一个模块R进行verb classific
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值