文献阅读笔记5:Cascaded Pyramid Network for Multi Person Pose Estimation

  • 文章来源:CVPR2018,COCO 2017的冠军模型文章。

  • 主要贡献:提出了基于Cascaded Pyramid Network的多人关键点检测框架。

  • 网络结构:
    在这里插入图片描述
    整个网络分为GlobalNet和RefineNet两个stages,采用的是top-down的策略,即先找出所有人的bounding box,再对bounding box 中的人进行关键点检测:
    Global Net:
    这个部分的功能是学习一个良好的特征表示,并检测出容易检测的关键点。主要是基于ResNet的架构,并在其中嵌入了U型结构,以此来保证输出为后面的层的特征中既能包含丰富的空间位置信息,又能包含足够的语义信息。在进行element-wise操作时,都进行了1×1卷积操作。Global Net最终会输出一张关键点的heat map,如图所示:
    在这里插入图片描述GlobalNet可以有效地定位像眼睛一样的关键点,但可能无法精确定位臀部的位置。
    Refine Net:
    这个部分则主要解决GlobalNet无法检测到的key points。
    各个level的特征会进行相互传输,并在最后通过上采样和拼接的方法进行融合。在更深的层中堆叠了更多的bottleneck,在有效性和效率之间实现了很好的权衡
    由于随着训练的进行,网络会比较关注容易检测的关键点,因此,作者通过修改训练的损失函数来选择难以检测的点,即Refine Net只对这些难检测点进行损失函数的回归。

  • 其他改进:
    soft NMS:
    soft NMS会将重叠较大的框中分数较小的那个框的分数拉到很低,但仍旧保留这个框,这样召回率相对较高。hard NMS就是传统的NMS,直接将IOU大于一定阈值的框中得分较低的框直接去掉,相对召回率较低。作者将soft NMS用到了CPN网络的Person Detector中,提高了0.3的人体检测AP。

    ROIAlign:
    作者将目标检测算法FPN中的ROI Pooling层改成了ROIAlign,这样可以减少ROI Pooling两次量化中浮点数取整造成的rigion proposal偏差

  • 模型性能
    作者在 MS COCO test-dev , testchallenge dataset分别将CPN网络与其它方法进行了比较:
    在这里插入图片描述在这里插入图片描述
    在没有额外训练数据的情况下,一个CPN模型AP达到了72.1,使用不同ground truth heat map的CPN集成模型实现了73.0的AP。在test-challenge2017 dataset年数据集上实现了最先进的性能:72.1AP.表11显示了CPN和CPN(集成模型)在CocoMinival数据集上的性能,为COCO Minval数据集与CoCO数据集的标准Testdev或test-Change数据集之间的差别提供了参考。

  • 遗留问题
    1.哪里用到了hourglass?
    2.bottleneck在Refine Net中如何发挥作用?
    3.U型结构怎么发挥融合低层位置信息和高层语义信息的效果?

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值