人体部位检测:Hier R-CNN

论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9229236
论文代码:https://github.com/soeaver/Hier-R-CNN
论文出处:IEEE Transactions on Image Processing,2020.

摘要

  • 在实例级检测人体部位(Detecting human parts at instance-level)是分析人体关键点、动作和属性的必要前提。
  • 尽管如此,目前还缺乏大规模的、注释丰富的人体部位检测数据集。
  • 我们通过COCO Human Parts来填补这一空白。该数据集基于COCO 2017,是首个实例级人体部位数据集,包含复杂场景和高度多样性的图像。
  • 为了反映自然场景中人体的多样性,我们对人体部位进行了标注(a)用一个边界框来表示位置,(b)包括脸、头、手、脚在内的多种类型,(c)人与人体部位之间的隶属关系,(d)细粒度地分为右手/左手和左脚/右脚。
  • 许多更高层次的应用和研究可以建立在COCO人体部件的基础上,如手势识别、脸/手关键点检测、视觉动作、人-物交互和虚拟现实。
  • 该数据集包括66,808个图像中总共有268,030个人实例,并且2.83 parts/ person instance。
  • 我们对我们的注释的准确性提供了统计分析。
  • 此外,我们提出了一个强基线,用于在该数据集上以端到端方式在实例级检测人体部位,称为Hier(archy) R-CNN。
  • 它是Mask R-CNN的一个简单而有效的扩展,可以检测每个人实例的人的部分,并预测它们之间的从属关系。

1. 简介

  • Detecting human parts in instance-level是人类视觉理解中最重要的组成部分之一,近年来引起了越来越多的关注
  • 人体部位的准确定位在手势识别、面部关键点检测、手部关键点检测、视觉动作、人物交互、虚拟现实等应用中起着至关重要的作用。
  • 然而,在现实应用中,理解人体的各个部分仍然存在许多挑战。
  • 人体部位检测缺乏大规模的、注释丰富的数据集
  • 此外,人与人体各部分之间的从属关系是未知的,我们无法确定检测到的人体各部分属于哪一个人。
  • 为了解决上述缺点,我们提出了COCO Human Parts dataset,一个大型实例级人体部件检测数据集,具有丰富的注释和各种场景。
  • COCO为每个人提供了bounding-box和instance mask,一些研究丰富了人实例的注释,如keypoint、densepose、human attributes和human visual actions。
  • COCO Human Parts包含268,030人的实例超过66808个图像。
  • 对于每个person实例,我们从官方COCO数据集继承person类别的边界框,并在每个实例中标记脸、头、右/左和右脚/左脚(如果是可见的)的位置(图1)。
    在这里插入图片描述
  • 总共有759,420个人体部位从训练和验证子集中被标记,并且每个实例2.83个部位,数据集中有各种比例变化和遮挡。
  • 为了解决实例级的人体部位检测问题,我们注释了人体实例与人体部位之间的从属关系
  • 现在的目标检测器在几个主要的领域都取得了显著的成果,然而,如何同时检测个体实例及其他们的各部分,并预测它们之间的从属关系,仍然是一个挑战。 另一方面,人的实例与人的部分之间的尺度差距非常明显,这也是一个瓶颈。
  • 为了减轻这些限制,我们在COCO Human Parts dataset 提出了一种实例级别的human parts detection pipeline,命名为:Hier (Hierarchical) R-CNN。它是一个端到端训练框架,建立在先进的视觉感知框架Mask R-CNN之上。
  • Hier R-CNN遵循原有的Mask R-CNN管道在Faster分支检测人体,通过逐点预测机制使用附加的anchor-free Hier分支检测每个人的人体部分。
  • Region Proposal Network只需要生成人的proposals,同时降低了anchor尺寸设计难度。
  • Hier R-CNN与在图像级检测人和人体部分不同,它首先检测人实例,然后检测每个实例内部的部分(实例级),从而确定它们之间的从属关系。
  • 综上所述,本文有以下贡献
    (1)我们构建了一个基于COCO的large-scale、rich-annotated的人体部位检测数据集,这是第一个实例级人体部位数据集,包含268,030个人体实例,超过66808张图片。每个人的实例都标注了脸、头、右手/左手和左脚/右脚的位置。据我们所知,这是第一个提供人的实例和人的部分之间从属关系的丰富的数据集。
    (2)我们提出了一种新颖的Hier R-CNN,以端到端方式解决实例级人体部位检测问题,这为激发未来在这一任务上的更多研究提供了坚实的基础。
    (3)对本文提出的COCO人体部位数据集进行综合评价,以验证其优越性Hier R-CNN在先进的探测器上了解不同自然场景中的人体部分。

2. RELATED WORK

2.1 Human Parts Datasets

  • 在构建人体部位检测数据集方面已经做了一些开创性的工作,但大多数数据集的人体部位类别都不丰富。
  • Vu et al.引入了一个大数据集,由来自21部好莱坞电影的224740个电影帧注释的369,846个人头组成,这些电影类型不同,代表不同的时代。
  • CrowdHuman数据集提供人框和头框的注释。
  • 在手部检测方面,Visual Geometry Group引入了VGGHand数据集,成为手部检测最关键的基准。VGGHand包含约11,194张图像,13,050个手实例,这些实例来自各种不同的公共图像数据集来源。
  • EgoHands是Bambach等人提出的另一个重要的手部检测数据集,具有高质量和像素级的手部分割。它包含
    来自48个谷歌玻璃视频的4800帧,两个人之间复杂的第一人称互动。
  • 人体足部检测是一项罕见的任务,常用于人体轨迹预测和足部关键点检测等问题。COCOFoot数据集,这是一个小的数据集,大约15,000个人类脚的实例with 6个脚的keypoints。COCOFoot用于训练足部关键点检测模型,以缓解糖纸效应、穿地板、脚部滑板等问题。
  • HumanParts数据集包含人、手、脸三类注释。这是一个专注于人体部位检测的大规模数据集,提供了14962张高分辨率图像和106,879个注释,样本随机选择自AI挑战者数据集。
  • Open Images是一个非常大的数据集,具有对象检测注释。Open Images的一个子集包含5个人体部位类别(人、头、脸、手、脚)的图像约823077张,并拥有超过470万个检测注释。该子集是目前最大的人体部位检测数据集,但存在一些明显的问题:严重的数据噪声(许多实例没有注释),注释极度不平衡(如足类占比不足0.05%),缺乏下属关系。由于这些问题,直接在Open Images数据集上进行监督学习很难训练出高性能的人体部位检测器。
  • 综上所述,目前还没有大规模的、注释丰富的实例级人体部位检测数据集
  • 图2显
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值