MultiPoseNet: Fast Multi-Person Pose Estimation using Pose Residual Network.
论文思路大致解读
论文提出的网络结构大概分成三部分:
- 首先第一部分是Backbone网络,用于提取图片在多尺度下的特征;
- 第二部分包括两个分开、独立的网络,其中一个用来检测图片中所有的人体关键点(keypoint_subnet),另外一个用来图片中的行人检测(person_detect subnet)
- 第三部分即文章的核心部分,提出的残差网络(PRN,Pose Residual Network),概括来说就是一个聚类算法,将第二部分检测的到的所有关键点依据行人检测结果进行聚类,得到每个人的人体关键点聚集。
论文的网络结构如下图所示:
论文具体部分详解
Backbone网络: Backbone网络为后面的关键点检测和行人检测网络提供图像特征,在论文中使用了ResNet网络结构,并加入了两个FPN(Feature Pyramid Networks)网络结构,一个用于后面的关键点检测,一个用于后面的行人检测。论文作者在ResNet网络的最后一个residual block提取特征并计算相应的FPN特征,具体的ResNet网络文中采用了ResNet-50和ResNet-101两种网络,ResNet-50更快,ResNet-101会慢一些但相比ResNet-50在COCO数据集上提高了大约1.6mAP检测结果。
Keypoint Subnet: 关键点检测网络,输入为前面FPN网络的输出特征,输出为关键点热图和分割结果热图。关键点检测网络如下图所示: