文献阅读笔记5：Cascaded Pyramid Network for Multi Person Pose Estimation

最新推荐文章于 2022-05-17 17:30:33 发布

Kraus111

最新推荐文章于 2022-05-17 17:30:33 发布

阅读量710

点赞数 2

分类专栏：文献笔记文章标签： CVPR2018 coco2017 姿态识别关键点检测

本文链接：https://blog.csdn.net/Kraus111/article/details/84974328

版权

文献笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章来源：CVPR2018,COCO 2017的冠军模型文章。
主要贡献：提出了基于Cascaded Pyramid Network的多人关键点检测框架。
网络结构：

整个网络分为GlobalNet和RefineNet两个stages，采用的是top-down的策略，即先找出所有人的bounding box,再对bounding box 中的人进行关键点检测：
Global Net:
这个部分的功能是学习一个良好的特征表示，并检测出容易检测的关键点。主要是基于ResNet的架构，并在其中嵌入了U型结构，以此来保证输出为后面的层的特征中既能包含丰富的空间位置信息，又能包含足够的语义信息。在进行element-wise操作时，都进行了1×1卷积操作。Global Net最终会输出一张关键点的heat map,如图所示:
GlobalNet可以有效地定位像眼睛一样的关键点，但可能无法精确定位臀部的位置。
Refine Net:
这个部分则主要解决GlobalNet无法检测到的key points。
各个level的特征会进行相互传输，并在最后通过上采样和拼接的方法进行融合。在更深的层中堆叠了更多的bottleneck，在有效性和效率之间实现了很好的权衡
由于随着训练的进行，网络会比较关注容易检测的关键点，因此，作者通过修改训练的损失函数来选择难以检测的点，即Refine Net只对这些难检测点进行损失函数的回归。
其他改进：
soft NMS：
soft NMS会将重叠较大的框中分数较小的那个框的分数拉到很低，但仍旧保留这个框，这样召回率相对较高。hard NMS就是传统的NMS，直接将IOU大于一定阈值的框中得分较低的框直接去掉，相对召回率较低。作者将soft NMS用到了CPN网络的Person Detector中，提高了0.3的人体检测AP。

ROIAlign:
作者将目标检测算法FPN中的ROI Pooling层改成了ROIAlign，这样可以减少ROI Pooling两次量化中浮点数取整造成的rigion proposal偏差
模型性能
作者在 MS COCO test-dev ， testchallenge dataset分别将CPN网络与其它方法进行了比较：

在没有额外训练数据的情况下，一个CPN模型AP达到了72.1，使用不同ground truth heat map的CPN集成模型实现了73.0的AP。在test-challenge2017 dataset年数据集上实现了最先进的性能:72.1AP.表11显示了CPN和CPN(集成模型)在CocoMinival数据集上的性能，为COCO Minval数据集与CoCO数据集的标准Testdev或test-Change数据集之间的差别提供了参考。
遗留问题
1.哪里用到了hourglass？
2.bottleneck在Refine Net中如何发挥作用？
3.U型结构怎么发挥融合低层位置信息和高层语义信息的效果？

Kraus111

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
文献阅读笔记5：Cascaded Pyramid Network for Multi Person Pose Estimation

文章来源：CVPR2018,COCO 2017的冠军模型文章。主要贡献：提出了基于Cascaded Pyramid Network的多人关键点检测框架。网络结构：整个网络分为GlobalNet和RefineNet两个stages，采用的是top-down的策略，即先找出所有人的bounding box,再对bounding box 中的人进行关键点检测：Global Net:...
复制链接

扫一扫