Pose-aware Multi-level Feature Network for Human Object Interaction Detection

最新推荐文章于 2022-05-07 17:27:54 发布

BUAA_小胡

最新推荐文章于 2022-05-07 17:27:54 发布

阅读量600

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010848594/article/details/105631013

版权

解决的问题：HOI(Human Object Interaction，人物交互关系预测)

输入一张图片，预测(人，物，动作)三元组

公开数据集：

HICO-DET

包含47,774张图片，包含了600类人物交互行为(使用verb-object对)，像骑车，骑马，持电话

117种常见行为，像骑，喂，...,无交互行为标签

80种常见物体，像自行车，手机等标签

朴素的想法：

对于一张图片先做目标检测，得到人体和物体所在区域，然后再提取①人②物③人∩物区域的特征，进行分类

但是作者觉得这样的做法只能得到整体的一些特征，模型不容易学到一些局部特征，于是我们就使用人体关键点来作为指导，关键点所在区域当成attention mask，这样可以得到更多的局部特征

Pipeline

上述即为整体流程，backbone用来提特征，在得到特征图的基础上预测人物框，人体关键点，然后将相应的特征送到需要的模块中，做分类，即可得到结果

创新点：

1.使用Pose作指导，起到attention map的作用

2.pose可以起到全局和局部指导的作用

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Pose-aware Multi-level Feature Network for Human Object Interaction Detection

解决的问题：HOI(Human Object Interaction，人物交互关系预测)输入一张图片，预测(人，物，动作)三元组公开数据集：HICO-DET包含47,774张图片，包含了600类人物交互行为(使用verb-object对)，像骑车，骑马，持电话117种常见行为，像骑，喂，...,无交互行为标签80种常见物体...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。