Pose-aware Multi-level Feature Network for Human Object Interaction Detection

解决的问题:HOI(Human Object Interaction,人物交互关系预测)

输入一张图片,预测(人,物,动作)三元组

公开数据集:

HICO-DET

包含47,774张图片,包含了600类人物交互行为(使用verb-object对),像骑车,骑马,持电话

117种常见行为,像骑,喂,...,无交互行为标签

80种常见物体,像自行车,手机等标签

 

朴素的想法:

对于一张图片先做目标检测,得到人体和物体所在区域,然后再提取①人②物③人∩物区域的特征,进行分类

但是作者觉得这样的做法只能得到整体的一些特征,模型不容易学到一些局部特征,于是我们就使用人体关键点来作为指导,关键点所在区域当成attention mask,这样可以得到更多的局部特征

Pipeline

上述即为整体流程,backbone用来提特征,在得到特征图的基础上预测人物框,人体关键点,然后将相应的特征送到需要的模块中,做分类,即可得到结果

创新点:

1.使用Pose作指导,起到attention map的作用

2.pose可以起到全局和局部指导的作用

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值