Hier R-CNN: Instance-Level Human Parts Detection and A New Benchmark解读
论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9229236
论文代码:https://github.com/soeaver/Hier-R-CNN
论文出处:IEEE Transactions on Image Processing,2020.
摘要
- 在实例级检测人体部位(Detecting human parts at instance-level)是分析人体关键点、动作和属性的必要前提。
- 尽管如此,目前还缺乏大规模的、注释丰富的人体部位检测数据集。
- 我们通过COCO Human Parts来填补这一空白。该数据集基于COCO 2017,是首个实例级人体部位数据集,包含复杂场景和高度多样性的图像。
- 为了反映自然场景中人体的多样性,我们对人体部位进行了标注(a)用一个边界框来表示位置,(b)包括脸、头、手、脚在内的多种类型,(c)人与人体部位之间的隶属关系,(d)细粒度地分为右手/左手和左脚/右脚。
- 许多更高层次的应用和研究可以建立在COCO人体部件的基础上,如手势识别、脸/手关键点检测、视觉动作、人-物交互和虚拟现实。
- 该数据集包括66,808个图像中总共有268,030个人实例,并且2.83 parts/ person instance。
- 我们对我们的注释的准确性提供了统计分析。
- 此外,我们提出了一个强基线,用于在该数据集上以端到端方式在实例级检测人体部位,称为Hier(archy) R-CNN。
- 它是Mask R-CNN的一个简单而有效的扩展,可以检测每个人实例的人的部分,并预测它们之间的从属关系。
1. 简介
- Detecting human parts in instance-level是人类视觉理解中最重要的组成部分之一,近年来引起了越来越多的关注
- 人体部位的准确定位在手势识别、面部关键点检测、手部关键点检测、视觉动作、人物交互、虚拟现实等应用中起着至关重要的作用。
- 然而,在现实应用中,理解人体的各个部分仍然存在许多挑战。
- 人体部位检测缺乏大规模的、注释丰富的数据集。
- 此外,人与人体各部分之间的从属关系是未知的,我们无法确定检测到的人体各部分属于哪一个人。
- 为了解决上述缺点,我们提出了COCO Human Parts dataset,一个大型实例级人体部件检测数据集,具有丰富的注释和各种场景。
- COCO为每个人提供了bounding-box和instance mask,一些研究丰富了人实例的注释,如keypoint、densepose、human attributes和human visual actions。
- COCO Human Parts包含268,030人的实例超过66808个图像。
- 对于每个person实例,我们从官方COCO数据集继承person类别的边界框,并在每个实例中标记脸、头、右/左和右脚/左脚(如果是可见的)的位置(图1)。
- 总共有759,420个人体部位从训练和验证子集中被标记,并且每个实例2.83个部位,数据集中有各种比例变化和遮挡。
- 为了解决实例级的人体部位检测问题,我们注释了人体实例与人体部位之间的从属关系。
- 现在的目标检测器在几个主要的领域都取得了显著的成果,然而,如何同时检测个体实例及其他们的各部分,并预测它们之间的从属关系,仍然是一个挑战。 另一方面,人的实例与人的部分之间的尺度差距非常明显,这也是一个瓶颈。
- 为了减轻这些限制,我们在COCO Human Parts dataset 提出了一种实例级别的human parts detection pipeline,命名为:Hier (Hierarchical) R-CNN。它是一个端到端训练框架,建立在先进的视觉感知框架Mask R-CNN之上。
- Hier R-CNN遵循原有的Mask R-CNN管道在Faster分支检测人体,通过逐点预测机制使用附加的anchor-free Hier分支检测每个人的人体部分。
- Region Proposal Network只需要生成人的proposals,同时降低了anchor尺寸设计难度。
- Hier R-CNN与在图像级检测人和人体部分不同,它首先检测人实例,然后检测每个实例内部的部分(实例级),从而确定它们之间的从属关系。
- 综上所述,本文有以下贡献:
(1)我们构建了一个基于COCO的large-scale、rich-annotated的人体部位检测数据集,这是第一个实例级人体部位数据集,包含268,030个人体实例,超过66808张图片。每个人的实例都标注了脸、头、右手/左手和左脚/右脚的位置。据我们所知,这是第一个提供人的实例和人的部分之间从属关系的丰富的数据集。
(2)我们提出了一种新颖的Hier R-CNN,以端到端方式解决实例级人体部位检测问题,这为激发未来在这一任务上的更多研究提供了坚实的基础。
(3)对本文提出的COCO人体部位数据集进行综合评价,以验证其优越性Hier R-CNN在先进的探测器上了解不同自然场景中的人体部分。
2. RELATED WORK
2.1 Human Parts Datasets
- 在构建人体部位检测数据集方面已经做了一些开创性的工作,但大多数数据集的人体部位类别都不丰富。
- Vu et al.引入了一个大数据集,由来自21部好莱坞电影的224740个电影帧注释的369,846个人头组成,这些电影类型不同,代表不同的时代。
- CrowdHuman数据集提供人框和头框的注释。
- 在手部检测方面,Visual Geometry Group引入了VGGHand数据集,成为手部检测最关键的基准。VGGHand包含约11,194张图像,13,050个手实例,这些实例来自各种不同的公共图像数据集来源。
- EgoHands是Bambach等人提出的另一个重要的手部检测数据集,具有高质量和像素级的手部分割。它包含
来自48个谷歌玻璃视频的4800帧,两个人之间复杂的第一人称互动。 - 人体足部检测是一项罕见的任务,常用于人体轨迹预测和足部关键点检测等问题。COCOFoot数据集,这是一个小的数据集,大约15,000个人类脚的实例with 6个脚的keypoints。COCOFoot用于训练足部关键点检测模型,以缓解糖纸效应、穿地板、脚部滑板等问题。
- HumanParts数据集包含人、手、脸三类注释。这是一个专注于人体部位检测的大规模数据集,提供了14962张高分辨率图像和106,879个注释,样本随机选择自AI挑战者数据集。
- Open Images是一个非常大的数据集,具有对象检测注释。Open Images的一个子集包含5个人体部位类别(人、头、脸、手、脚)的图像约823077张,并拥有超过470万个检测注释。该子集是目前最大的人体部位检测数据集,但存在一些明显的问题:严重的数据噪声(许多实例没有注释),注释极度不平衡(如足类占比不足0.05%),缺乏下属关系。由于这些问题,直接在Open Images数据集上进行监督学习很难训练出高性能的人体部位检测器。
- 综上所述,目前还没有大规模的、注释丰富的实例级人体部位检测数据集。
- 图2显示了COCO人体部位数据集中的示例与其他人体部位检测数据集中的示例的比较。