人体姿态估计的高分辨率表示学习

最新推荐文章于 2024-07-04 19:23:46 发布

Miracle_520

最新推荐文章于 2024-07-04 19:23:46 发布

阅读量3.6k

点赞数 2

分类专栏：论文笔记

论文笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

摘要：
介绍
相关工作
方法
试验
结论和未来的工作
附录

摘要：

在这篇论文中，我们感兴趣的是人类姿态估计问题，重点是学习可靠的高分辨率表示。大多数现有的方法从高到低分辨率网络产生的低分辨率表示中恢复高分辨率表示。相反，我们提出的网络在整个过程中保持高分辨率的表示。
我们从一个高分辨率的子网作为第一个阶段开始，逐步增加高分辨率到低分辨率的子网，一个接一个的形成更多的阶段，并将多分辨率的子网并行连接。我们进行重复的多尺度融合，使得每一个高分辨率到低分辨率的表示法一次又一次地从其他并行表示法接收信息，从而得到丰富的高分辨率表示法。因此，预测的关键点热图可能更精确，在空间上也更精确。通过ccokeypoint检测数据集和MPII人体姿态数据集的优势姿态估计结果，验证了该网络的有效性。此外，我们还展示了我们的网络在PoseTrackdataset上进行姿态跟踪的优越性。

介绍

二维人体姿态估计一直是计算机视觉领域中一个基本而又具有挑战性的问题。目标是定位人体解剖关键点(如肘部、腕部等)或部位。它有许多应用，包括人类动作识别、人机交互、动画等。本文感兴趣的是单人姿态估计，这是其他相关问题的基础，如多人姿态估计[6,27,33,39,47,57,41,46,17,71]，视频姿态估计与跟踪[49,72]等。
在这里插入图片描述
图1.说明所提议的HRNet架构。它由并行的高分辨率到低分辨率子网组成，在多分辨率子网之间进行重复的信息交换(多尺度融合)。水平方向和垂直方向分别对应于网络的深度和特征图的宽度。
近年来的研究表明，深度卷积神经网络已经达到了最先进的性能。大多数现有的方法都是通过网络来传递输入，通常是将高分辨率到低分辨率的子网络串联起来，然后提高分辨率。例如，Hourglass [40]通过从低到高的对称过程恢复高分辨率。SimpleBaseline[72]采用几个转置卷积层来生成高分辨率的表示。此外，膨胀卷积还用于放大高分辨率到低分辨率网络(如VGGNet或ResNet)的后几层[27,77]。
我们提出了一种新的体系结构，即高分辨率网络(HRNet)，它能够在整个过程中保持高分辨率的表示。我们从一个高分辨率的子网作为第一个阶段开始，逐步增加高分辨率到低分辨率的子网，一个接一个形成更多的阶段，并将多分辨率的子网并行连接。在整个过程中，我们通过在并行的多分辨率子网之间反复交换信息，进行多尺度融合。我们估计通过网络输出的高分辨率表示的关键点。得到的网络如图1所示。
在这里插入图片描述
典型的姿态估计网络依赖于高到低和低到高的框架。(a)沙漏型网络40级联金字塔网络11简单基线网络[72]：转置卷积用于低到高的处理(d)结合扩张的卷积[27]。右下方图例：reg.=普通卷积。dilated=扩张的卷积，trans.=转置卷积。strided=跨度卷积。concat=联接。a)中，高到低和低到高的过程是对称的。在(b)、©和(d)中，分类网络(ResNet或VGGNet)的一部分high-to-low过程是重的，而low-to-high过程是轻的。在(a)和(b)中，high-to-low和low-to-high进程的相同分辨率层之间的跳转连接(虚线)主要是为了融合低层和高层特性。在(b)中，右边的refinenet部分结合了通过卷积处理的低层和高层特性。
与现有广泛使用的网络相比，我们的网络在姿态估计方面有两个优势[40,27,77,72]。(i)我们的方法是并行连接高分辨率和低分辨率子网，而不是像大多数现有解决方案那样串联。因此，我们的方法能够保持高分辨率，而不是通过从低到高的过程恢复分辨率，因此预测的热图在空间上可能更精确。(ii)大多数现有的融合方案聚合了低层和高层表示。相反，我们采用重复多尺度融合的方法，利用相同深度和相似水平的低分辨率表示来增强高分辨率表示，反之亦然，因此高分辨率表示对于姿态估计也具有丰富的内容。因此，我们预测的热图可能更准确。
我们通过实验证明了在两个基准数据集:COCO keypoint detection dataset[36]和MPII Human Pose dataset[2]上，keypoint检测性能优越。此外，我们在PoseTrack数据集[1]上展示了我们的网络在视频姿态跟踪方面的优势。

方法

人体姿势估计（又称关键点检测）旨在从尺寸为WH3的图像I中检测K个关键点或部位（例如，肘部，手腕等）的位置。最先进的方法将此问题转换为估计 K个大小为W’H’，的热图{H1，H2，…，HK}，其中每个热图Hk表示第k个关键点的位置置信度。
我们遵循广泛采用的管道[40,72,11]来使用卷积网络来预测人类关键点，卷积网络由一个由两个跨度卷积组成的词干组成，降低了分辨率，主体输出特征图和它的输入特征图具有相同的分辨率, 并且使用回归预测热图中被选择的关键点位置且将热图转换为全分辨率。我们将重点放在主体的设计上，并介绍我们的高分辨率网络（HRNet），如图1所示。
连续多分辨率子网
现有的位姿估计网络是通过串联高分辨率和低分辨率的子网络来构建的，每个子网络形成一个阶段，由一系列卷积组成，相邻的子网络之间有一个下采样层，将分辨率减半。
设N_sr为某一个阶段的子网，r为分辨率指数(其分辨率为第一个子网分辨率的（1⁄2^(r-1) ）)。S(如4)级的高-低网络表示为:

并行多分辨率子网
我们从高分辨率子网开始作为第一阶段，逐一逐步添加高到低分辨率的子网，形成新的阶段，并且并行连接多分辨率子网。因此，下一阶段并行子网的分辨率包括前一阶段的分辨率和一个更低的分辨率。
包含一个包括4个并行子网的网络结构实例如下：

说明交换单元如何分别从左到右聚合高，中和低分辨率的信息。右图例:strided33=strided33 convolution,up samp.11=1×1卷积后的最近邻上采样。
重复多尺度融合
我们在并行子网之间引入交换单元，以便每个子网重复地接收来自其他并行子网的信息。下面是一个展示信息交换方案的例子。我们将第三阶段划分为几个交换块(如3个)，每个交换块由3个并行卷积单元组成，每个交换单元由一个交换单元跨越并行单元组成，具体如下:
在这里插入图片描述
式中C_sr^{b为第s阶段中第b个块的第r分辨率的卷积单元，ε_s}b为对应的交换单元。
我们在图3中说明了交换单元，并在下面给出了公式。我们省略下标s和上标b以方便讨论。输入是响应图：{X1，X2，…，Xs}。输出是响应图：{Y1，Y2，…，Ys}，其分辨率和宽度与输入相同。每个输出是输入映射的集合，Y_k=∑_(i=1)^s▒〖a(X_i,k)〗。跨阶段的交换单元具有额外的输出映射Y_(s+1)=a(Y_s,s+1)。
函数a(X_i,k)包括从分辨率i到分辨率k的上采样或下采样Xi。我们采用跨步的3×3卷积进行下采样。例如，一个跨步3×3卷积，步幅2用于2倍下采样，两个连续跨步3×3卷积，步幅2用于4倍下采样。对于上采样，我们采用简单的最近邻采样1×1卷积，来对齐通道数。如果i=k，则a(∙,∙)只是一个标识连接：a(X_i,k)=X_i。
热图估计
我们仅从最后一个交换单元输出的高分辨率表示返回热图，这在经验上运行得很好。将损失函数定义为均方误差，应用于预测的热图与groundtruth heatmaps的比较。利用二维高斯函数，以groundtruth heatmaps每个关键点的位置为中心，以1个像素的标准差为中心，生成groundtruth heatmaps。
网络实例化
我们通过遵循ResNet的设计规则来实例化关键点热图估计的网络，以将深度分布到每个阶段，将通道数分布到每个分辨率。
主体，即我们的HRNet，包含四个阶段，四个并行的子网，其分辨率逐渐降低到一半，因此相应的宽度(通道的数量)增加到原来的两倍。第一个阶段包含4个剩余单元，每个单元（与ResNet-50相同），由一个宽度为64的瓶颈形成，然后进行一个3×3的卷积，将feature map的宽度减小到c。第2、3、4个阶段分别包含1、4、3个交换块。一个交换块包含4个剩余单元，其中每个单元在每个分辨率中包含两个3×3的卷积和一个跨分辨率的交换单元。综上所述，共有8个交换单元，即，进行了8次多尺度融合。
在我们的实验中，我们研究了一个小网络和一个大网络：HRNet-W32和HRNet-W48，其中32和48分别代表最后三个阶段中高分辨率子网的宽度（C）。 HRNet-W32的其他三个并行子网的宽度为64,128,256，HRNet-W48的宽度为96,192,384。

试验

COCO关键点检测

数据集
COCO数据集[36]包含超过200,000张图像和250,000个带有17个关键点的person实例。我们在COCO train2017数据集上训练我们的模型，包括57K张图片和150K个人物实例。我们在val2017集和test-dev2017集上评估了我们的方法，这两个集分别包含5000张图片和20K张图片。
评价指标。标准评价指标基于对象关键点相似度（OKS）：。这里d_i是检测到的关键点和对应的ground truth之间的欧式距离，v_i是ground truth的可见性，s是对象尺度，k_i是控制衰减的每个关键点常数。我们报告了标准平均精度和召回分数：AP50（AP在OKS = 0.50时的AP值）AP75，AP（在10个位置的AP值的平均值，OKS = 0.50,0.55，…，0.90,0.95; APM用于中型对象，APL用于大型对象，而AR在OKS = 0.50,0.55，…，0.90,0.955时的AP值。
训练
我们将人体检测盒的高宽比扩展到固定的长宽比:高:宽= 4:3，然后从图像中裁剪框，将尺寸调整为固定尺寸，256×192或384×288。数据增强包括随机旋转（[-45°，45°]），随机比例（[0.65,1.35]）和翻转。在[68]之后，还涉及半身数据增强。
表1. COCO验证集的比较。 Pretrain =预先训练ImageNet分类任务的主干。 OHKM =在线硬关键点挖掘[11]。
在这里插入图片描述
表2. COCO测试开发集的比较。 #Params和FLOP是针对姿势估计网络计算的，而用于人体检测和关键点分组的比较则不包括在内。

我们使用Adam优化器[32]。学习进度按照设定[72]。基础学习率设置为1e−3，分别在第170和200个epochs下降到1e−4和1e−5。训练过程在210个epochs内终止。
测试。使用类似于[47,11,72]的两阶段自上而下的范例：使用人物检测器检测人物实例，然后预测检测关键点。
我们对验证集和测试开发集使用SimpleBaseline2[72]提供的相同的人物检测器。按照常见的做法[72,40,11]，我们通过对原始图像和翻转图像的头图求平均值来计算热图。每个关键点的位置是通过调整最高热值的位置，并在从最高响应到第二高响应的方向上偏移四分之一来预测的。
验证集上的结果
我们在表1中报告了我们的方法和其他最新方法的结果。我们的小型网络HRNet-W32，以256×192的输入大小从零开始训练，获得了73.4的AP分数，优于其他相同输入大小的方法。(i)与沙漏[40]相比，我们的小网络提高了AP的6.5分，我们网络的GFLOPs要低得多，不到一半，而我们的参数数量相近，我们的略大一些。(ii)与CPN [11] w/o和w/ OHKM相比，我们的网络模型尺寸略大，复杂度略高，分别获得4.8和4.0分的增益。(iii)与之前性能最好的SimoleBaseline相比[72]，我们的小型网络HRNet-W32获得了显著的改进:模型大小和GFLOP相似的ResNet-50获得3.0分，模型大小(#Params)和GLOPs是我们的两倍的ResNet152获得1.4分。
我们的网络可以从（i）针对ImageNet分类问题预训练的模型中进行训练：HRNet-W32的增益为1.0分; （ii）通过增加宽度来增加容量：我们的大网络在输入尺寸256×192和384×288上分别得到了0.7和0.5的提高。
考虑到输入尺寸384×288，我们的HRNet-W32和HRNet-W48得到了75.8和76.3的AP，与输入尺寸256×192相比有了1.4和1.2的提高。与以ResNet-152为骨干的SimpleBaseline[72]相比，我们的HRNet-W32和HRNetW48在AP方面分别获得1.5和2.0分，计算成本分别为45%和92.4%。

MPII人体姿势估计

数据集
MPII人体姿势数据集[2]包含从具有全身姿势注释的各种现实世界活动中获取的图像。大约有25K张图像包含40K个对象，其中有12K个对象用于测试和训练集的主要对象。数据增强和训练策略与MS COCO相同，只是输入大小被裁剪为256×256，以便与其他方法进行公平比较。
测试。测试过程与COCO中的测试过程几乎相同，只是我们采用了标准的测试策略，使用提供的人员框而不是检测到的人员框。在[14,77,62]之后，进行了六尺度金字塔测试程序。
表3. MPII测试集的性能比较（PCKh@0.5）。
在这里插入图片描述
评价指标
使用标准度量[2]，即PCKh(正确关键点的头部归一化概率)得分。如果关节落在地面位置的α1像素内，则关节是正确的，其中α是常数，l是与地面实况边界框的对角线长度的60％相对应的头部尺寸。报告PCKh@0.5（α= 0.5）分数。
测试集上的结果
表3和表4显示了PCKh@0.5结果、模型大小和最优执行方法的GFLOPs。我们使用ResNet-152作为骨干，输入大小为256×256，重新实现了SimpleBaseline[72]。我们的HRNet-W32实现了92.3 PKCh@0.5的评分，并优于堆叠沙漏方法[40]及其扩展[58、14、77、31、62]。我们的结果与之前在2018年11月16日排行榜上公布的结果中最好的结果一致[62]。我们想指出的是，该方法[62]是对我们的方法的补充，利用组合模型来学习人体的构造，采用多层次的中间监督，我们的方法也可以从中受益。我们还测试了我们的大网络HRNetW48，得到了相同的结果92.3。原因可能是这个数据集中的性能趋于饱和。

姿态跟踪应用数据集

PoseTrack[28]是视频中用于人体姿态估计和关节跟踪的大规模基准。该数据集基于流行的MPII人体姿态数据集提供的原始视频，包含550个视频序列，共66374帧。视频序列分为292、50、208个视频，分别用于训练、验证和测试。训练视频的长度在41 - 151帧之间，从视频中心开始的30帧之间有密集的注释。验证/测试视频的帧数在65 - 298帧之间。MPII Pose数据集中的关键帧周围的30帧被密集地注释，然后每四帧被注释一次。总共约有23,000个带标签的帧和153,615个摆姿注释。

表4.表3中报告了一些性能最好的方法的#Params和GFLOPs。计算GFLOPs的输入尺寸为256×256。
在这里插入图片描述
评价指标
我们从两方面对结果进行了评估:帧间多姿态估计和多姿态跟踪。姿态估计是通过平均精度(mAP)来评估的，如[51,28]所做。多目标跟踪精度(MOTA)是多目标姿态跟踪的评价指标[38,28]。详情见[28]。
训练
我们在PoseTrack2017训练集上训练HRNet-W48进行单人姿态估计，其中网络由COCO数据集上预训练的模型初始化。我们将person框作为网络的输入从训练帧中的带注释的关键点中提取出来，方法是将所有关键点(对于一个人)的边界框扩展15%。训练设置，包括数据增强，几乎与COCO相同，只是学习进度不同(就像现在的微调一样):学习率从1e - 4开始，在第10个epoch下降到1e - 5，在第15个epoch下降到1e - 6;迭代在20个epochs内结束。
测试
我们跟随[72]来跟踪帧间的姿势。它由三个步骤组成:人体姿态检测与传播、人体姿态估计和姿态关联交叉附近的帧。我们使用与SimpleBaseline相同的person box检测器[72]，根据FlowNet2.0[26]计算的光流传播预测的关键点，将检测到的box传播到附近的帧中，然后对box进行非最大抑制去除。姿态关联方案是基于一帧内的关键点与根据光流从邻近帧传播的关键点之间的目标关键点相似性。然后利用贪婪匹配算法计算相邻帧中关键点之间的对应关系。更多细节见[72]。
表5. PoseTrack2017测试装置上的姿势跟踪结果。
在这里插入图片描述
表6.用于重复多尺度融合的交换单元的相关研究。跨越交换=跨阶段的中间交换，Int。内部交换=阶段内的中间交换。

PoseTrack2017测试集的结果。表5给出了结果。我们的大网络- HRNet-W48取得了更好的成绩，74.9的地图评分和57.9的MOTA评分。与第二好的方法SimpleBaseline中以ResNet-152为骨干的FlowTrack[72]相比，我们的方法在mAP和MOTA方面分别获得了0.3和0.1分的增益。相对于FlowTrack[72]的优势与COCO关键点检测和MPII人体姿态估计数据集的优势是一致的。这进一步说明了我们的姿态估计网络的有效性。

结论和未来的工作

本文提出了一种用于人体姿态估计的高分辨率网络，得到了精确和空间精确的关键点热图。成功的原因有两个方面:(1)全程保持高分辨率，而无需恢复高分辨率;(二)重复融合多分辨率表示，提供可靠的高分辨率表示。
未来的工作包括应用于其他密集的预测任务，如语义分割、目标检测、人脸对齐、图像翻译，以及以较轻的方式聚合多分辨率表示的研究。所有这些都可以在https://jingdongwang2017.github.io/Projects/HRNet/index.html上找到

附录

MPII验证集上的结果
我们提供了关于MPII验证集[2]的结果。我们的模型在MPII训练集的子集上进行训练，并在2975幅图像的保持验证集上进行评估。训练过程与整个MPII训练集的训练过程相同，热图计算为原始图像和翻转图像热图的平均值，用于测试。在[77,62]之后，我们还进行了六级金字塔测试(多尺度测试)。结果如表7所示。
PoseTrack数据集上的更多结果
我们提供了PoseTrack数据集[1]上所有关键点的结果。表8显示了PoseTrack2017数据集中的多人姿态估计性能。我们的HRNet-W48在验证集和测试集上的mAP分别达到77.3和74.9分，比之前的最先进的方法[72]分别高出0.6和0.3分。我们在PoseTrack2017测试集中提供了更详细的多人姿态跟踪性能结果，作为本文报告结果的补充，如表9所示。
表7. MPII验证集的性能比较（PCKh@0.5）。
在这里插入图片描述
表8所示。PoseTrack2017数据集上的多人姿态估计性能(MAP)。“”表示在训练和验证集合训练的模型。

表9. PoseTrack2017测试集上的多人姿势跟踪性能（MOTA）。“”表示在列车+验证集上训练的模型。

ImageNet验证集上的结果
我们将网络应用于图像分类任务。模型在ImageNet 2013分类数据集[54]上进行训练和评估。我们训练我们的模型为100个epochs，批量大小为256。初始学习率设置为0.1，并在epoch 30、60和90时减少10倍。我们的模型可以达到与专为图像分类而设计的网络(如ResNet[22])类似的性能。我们的HRNet-W32单模型前5位验证误差为6.5%，单模型前1位验证误差为22.7%。我们的HRNet-W48获得了更好的性能：6.1％的前5个错误和22.1％的前1个错误。我们使用在ImageNet数据集上训练的模型来初始化我们的姿势估计网络的参数。
致谢
作者感谢李殿琦和张磊的有益讨论。

Miracle_520

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
人体姿态估计的高分辨率表示学习

文章目录摘要：介绍相关工作方法试验COCO关键点检测MPII人体姿势估计姿态跟踪应用数据集相关研究结论和未来的工作附录摘要：在这篇论文中，我们感兴趣的是人类姿态估计问题，重点是学习可靠的高分辨率表示。大多数现有的方法从高到低分辨率网络产生的低分辨率表示中恢复高分辨率表示。相反，我们提出的网络在整个过程中保持高分辨率的表示。我们从一个高分辨率的子网作为第一个阶段开始，逐步增加高分辨率到低分辨率...
复制链接

扫一扫