-
文章来源:CVPR2018,COCO 2017的冠军模型文章。
-
主要贡献:提出了基于Cascaded Pyramid Network的多人关键点检测框架。
-
网络结构:
整个网络分为GlobalNet和RefineNet两个stages,采用的是top-down的策略,即先找出所有人的bounding box,再对bounding box 中的人进行关键点检测:
Global Net:
这个部分的功能是学习一个良好的特征表示,并检测出容易检测的关键点。主要是基于ResNet的架构,并在其中嵌入了U型结构,以此来保证输出为后面的层的特征中既能包含丰富的空间位置信息,又能包含足够的语义信息。在进行element-wise操作时,都进行了1×1卷积操作。Global Net最终会输出一张关键点的heat map,如图所示:
GlobalNet可以有效地定位像眼睛一样的关键点,但可能无法精确定位臀部的位置。
Refine Net:
这个部分则主要解决GlobalNet无法检测到的key points。
各个level的特征会进行相互传输,并在最后通过上采样和拼接的方法进行融合。在更深的层中堆叠了更多的bottleneck,在有效性和效率之间实现了很好的权衡
由于随着训练的进行,网络会比较关注容易检测的关键点,因此,作者通过修改训练的损失函数来选择难以检测的点,即Refine Net只对这些难检测点进行损失函数的回归。 -
其他改进:
soft NMS:
soft NMS会将重叠较大的框中分数较小的那个框的分数拉到很低,但仍旧保留这个框,这样召回率相对较高。hard NMS就是传统的NMS,直接将IOU大于一定阈值的框中得分较低的框直接去掉,相对召回率较低。作者将soft NMS用到了CPN网络的Person Detector中,提高了0.3的人体检测AP。ROIAlign:
作者将目标检测算法FPN中的ROI Pooling层改成了ROIAlign,这样可以减少ROI Pooling两次量化中浮点数取整造成的rigion proposal偏差 -
模型性能
作者在 MS COCO test-dev , testchallenge dataset分别将CPN网络与其它方法进行了比较:
在没有额外训练数据的情况下,一个CPN模型AP达到了72.1,使用不同ground truth heat map的CPN集成模型实现了73.0的AP。在test-challenge2017 dataset年数据集上实现了最先进的性能:72.1AP.表11显示了CPN和CPN(集成模型)在CocoMinival数据集上的性能,为COCO Minval数据集与CoCO数据集的标准Testdev或test-Change数据集之间的差别提供了参考。 -
遗留问题
1.哪里用到了hourglass?
2.bottleneck在Refine Net中如何发挥作用?
3.U型结构怎么发挥融合低层位置信息和高层语义信息的效果?
文献阅读笔记5:Cascaded Pyramid Network for Multi Person Pose Estimation
最新推荐文章于 2022-05-17 17:30:33 发布