Hier R-CNN: Instance-Level Human Parts Detection and A New Benchmark

2 篇文章 0 订阅
1 篇文章 0 订阅

本文工作

这篇博客主要是对原论文做整体上的概述,并非一句句的翻译,本人水平时间有限。如果有细节上的疑问的话,最好还是下载原文去校对一下,当然也欢迎留言讨论。

原文信息

先上原文标题:Hier R-CNN: Instance-Level Human Parts Detection and A New Benchmark
原文作者:Lu Yang , Qing Song , Zhihui Wang, Mengjie Hu , and Chun Liu

整体概述

这篇论文主要做了两个工作:

  1. 丰富了数据集,提出了COCO 人体部位数据集
  2. 基于提供的数据集,提出了改进R-CNN的Hier R-CNN算法

背景简介

论文第一部分第一段 作者先用论文1-3来证明人实例集水平的人体部分检测很重要并且目前有很多人在做;再用论文4-10证明人体部位的精确定位在手势识别、人脸关键点检测、人手关键点检测、视觉捕捉(原文是visual action)、人机交互、虚拟现实等领域中都起重要作用;最后作者提出目前人体部分检测还面临很多挑战,其中数据集是一方面。现有的数据集规模不够大,注释不够丰富导致研究中例如论文2,需要用关键点去估计边界盒。这使得结果非常不准确。而且人与人体部位的附属关系也不明确,例如这个腿属于哪个人也不够精确。
论文第一部分第二段 为了处理第一段所述的缺点,作者提出了规模大、注释丰富且在实例级的人体部位数据集。这个数据集在11论文的COCO 2017基础上提出。COCO给每个人物提供了边界盒和实例掩膜。此外许多研究也丰富了人体可标记的部分,例如论文11中的关键点、论文12中的姿态估计、论文13中的行人属性、论文14中的视觉捕捉(原文是visual action)。将丰富的人体部位标注和其他实例级人体标注联系起来为人体部位的探测和识别提供了很大的可能。COCO人体部位数据集包含268030个人体实例、超过66808张图片。对于每个人体实例,在继承原先COCO数据集的基础上,再标注出了脸、头、左右手、左右脚。通过训练集和测试集共标注了759420个人体部位,每个实例平均被标注了2.83个部位。最重要的是,作者还注释了人体部位和人体实例的从属关系(简单来说就是这个脚属于谁)使得人体部位检测可达到实例级水平。
论文第一部分第三段 作者一开始先阐述目标,他们的目标就是为了在复杂场景下也能做到实例级的人体部位识别。作者先引用了论文15-19来说明目前的物体识别确实在论文11、20、21中提到的基准里取得了很大的成就,但现在在人体实例及从属关系仍做的不是很好。另一方面,人体实例和人体部位的大小差距很明显,这也是一个瓶颈。为了解决这些问题,作者在COCO人体数据集基础上提出了新的人体实例级的算法,叫Hier (Hierarchical) R-CNN。作者提出的Hier R-CNN是在论文18 Mask R-CNN的基础上作改进得来的。Hier R-CNN先是遵循原来Mask R-CNN的流程去检测人体,同时用无锚点的Hier分支去逐像素的检测人体部位。论文16中的区域生成网络只需要生成各自的结果,这样就可以减少尺寸大小带来的问题。和图像级别的人及人体部位检测不同,Hier R-CNN先检测人体实例,再检测人体实例中的人体部位,这样就能确定彼此的从属关系。提出的Hier R-CNN概念简单,且易于和其他方法结合,例如论文22中的关键点检测、论文12中的姿态估计、论文23、24中实例级的人物分析等。而且论文不仅仅局限于人及人的部位的实例级检测,也可以用于其他方面,比如车的。
论文第一部分第四段 作者对这篇论文做的贡献进行了总结,有以下三点:

  1. 作者在COCO数据集的基础上建立了一个数据量大、标注丰富的实例级人体部位数据集。(COCO数据集是第一个人体部位实例数据集,包含268030个人物,超过66808张图片。)每个人物都被标注了脸、头、左右手、左右脚。在作者所知的知识范围内,这是第一个标注了人及人体部位从属关系的数据集。
  2. 作者提出了一个新的端到端的算法即Hier R-CNN去解决人物识别实例级的问题,为之后这方面的研究做了贡献
  3. 通过COCO人体部位数据集的评估,显示了Hier R-CNN在各种复杂环境下去识别人体部位的优越性

相关工作

论文第二部分A部分这部分作者主要讲了人体部位数据集 作者一上来先说先前的研究者也在人体部位数据集方面做了一些工作,但在人体部位的分类方面不够细。论文1给出了从21个风格各异的好莱坞电影中提取369846个人体头部数据集;论文27中给出了带有人体边界盒和头部边界盒的人群数据集;论文28中给出了VGGHand数据集,给手部识别作了巨大贡献(VGGHand数据集包含11194张图片其中标注了13050个手部部位);论文29中给出了EgoHand高质量像素级分割的数据集(EgoHand数据集包含4800帧图像)。人体脚部检测的工作比较少,一般运用于像论文30中的人体轨迹预测和论文2中的脚关键点检测。论文2中给出了COCOFoot数据集(COCOFoot数据集包括15000脚部实例,每个实例包含6个脚部关键点),这个数据集主要用来解决糖纸效应(candy wrapper effect)、地板渗透(floor penetration)、脚滑(foot skate)问题。论文3中提出了人体部位数据集,这个数据集有三种分类即人、手、脸,包含14962张高清图片且有106879个标注。论文26中提出了Open Images数据集,这个数据集有五种分类即人、头、脸、手、脚,包含823077张图片超过470万标注。但这个数据集存在一些问题,比如数据不够精确、标注种类极其不平衡、从属关系不明确。这导致了在现有的数据集上训练一个高质量的人体部位检测器是很困难的,所以作者才要提出COCO人体部位数据集。
论文第二部分B部分这部分作者主要讲了基于区域的算法 论文16,18,33-36提出了很好的区域算法先例,这些算法引领了目前的潮流,以至于物体识别现在只考虑两个问题:基于区域的算法和基于感兴趣区域的算法…

后面内容概要

后面作者主要围绕自己提出的COCO人体部位数据集来进行了讨论,作者提出的Hier CNN算法他只简单的聊了几句(PS:篇幅相比于他提出的COCO人体部位数据集少很多,所以我也没搞清楚他的算法,毕竟本人不是专门搞这个方向的)。所以后面的内容就不做详细阐述了,如果有时间我再把后面的部分详细的分析一下,就这样

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值