Cascaded Pyramid Network for Multi-Person Pose Estimation
论文地址:https://arxiv.org/abs/1711.07319
旷视COCO Challenge 2017人体姿态估计冠军论文
文章核心提出一种使用自上而下的多人关键点估计方法。先利用mask-rcnn的detection结构检测人体(FPN+ROIAlign),之后利用GlobalNet+RefineNet结构对单人目标回归人体关键点。
上图为网络架构,GlobalNet本质是一个类似FPN的架构,但是在上采样部分中,每个element-wise add之前作者多加了一个1x1卷积。之后算不同尺度feature map和关键点响应图的L2 loss(和FPN一样,算P2-P5层的loss)
接下来是RefineNet,把前面GlobalNet骨架网络的P2-P5层拿出来(论文这部分写的有歧义,说是C2-C5,但是看了源码后发现是类似FPN的P2-P5),经过不同次数的bottleneck之后concatenate。前面concatenate之后再经过一个bottleneck回归到关键点响应图。但是与前面的L2 loss不同,这里计算loss使用online hard mining方法,训练时只动态回传loss较大的几个channel。