论文标题:Deep High-Resolution Representation Learning for Human Pose Estimation
论文链接:https://arxiv.org/abs/1902.09212
论文代码:https://github.com/leoxiaobin/deep-high-resolution-net.pytorch
发表时间:2019年2月
Abstract
在本文中,作者对人类姿势估计问题感兴趣,重点是学习可靠的高分辨率表示。大多数现有方法从高到低分辨率网络产生的低分辨率表示中恢复高分辨率表示。相反,作者建议的网络在整个过程中保持高分辨率表示。我们从高分辨率子网作为第一阶段开始,逐步逐个添加高到低分辨率子网,形成更多的阶段,并并行连接多分辨率子网。进行重复的多尺度融合,以使每个高到低分辨率表示一次又一次地从其他并行表示接收信息,从而产生丰富的高分辨率表示。结果,预测的关键点热图可能更准确,并且在空间上更精确。我们通过优于两个基准数据集 (COCO keypoint检测数据集和MPII人类姿势数据集) 的姿势估计结果,从经验上证明了本文的网络的有效性。此外,还展示了作者的网络在PoseTrack数据集上的姿势跟踪方面的优势。
创新点
1、多尺度融合
2、从高到低的并行网络,以实现不同特征图的融合
Method
HRNet 的体系结构。
它由并行的高到低分辨率子网组成,具有跨多分辨率子网的重复信息交换 (多尺度融合)。
水平和垂直方向分别对应于网络的深度和特征图的比例。
首先,网络从一个高分辨率子网开始;
其次,逐步添加高到低分辨率子网来形成更多阶段,并且并行连接多个分辨率子网,然后执行多尺度融合;
个人理解:
1、人体姿态估计,从特征图的多通道中,采取不同的关键节点,然后使用神经网络,进行关键节点的检测,为什么是多通道的呢,个人理解类似 Dropout、集成学习这种理念,每一个通道我都检测关键点,然后集合在一起,取平均。
2、对于从高到低的分辨率的问题:首先,这是一篇 2019 年的文章,现在是 2022 年,回头看,从高到低的分辨率的提取问题,U-Net 就做过呀,而且在语义分割领域中,得到了充分的证明,是没问题的,所以这个可能在当时确实是一种创新吧。
3、让人眼前一亮的是多尺度的特征融合结构,交叉并行,值得学习,而且是不同分辨率的价差融合。
Experiments
实验目标:COCO 验证集与测试集的比较
实验结果:结果明显占优
实验目标:MPII (顶部) 和COCO (底部) 数据集中的一些示例图像的定性结果: 包含视点和外观变化,遮挡,多个人和常见的成像伪影。