摘要
This work introduces( 提出) a novel(新奇的) convolutional network architecture for the task of human pose estimation.
本文提出了一种新的用于人体姿态估计的卷积神经网络。
Features are processed across(交叉处理) all scales and consolidated(加固的) to best capture the various(各种各样的) spatial(存在于空间的) relationships associated with the body.
特征在所有尺度上都被处理,并被整合,以最佳地捕捉与身体相关的各种空间关系。
We show how repeated bottom-up, top-down processing used in conjunction with intermediate supervision is critical to improving the performance of the network.
我们展示了重复自下而上、自顶向下的处理与中间监督一起使用是如何提高网络性能的关键。
We refer to the architecture as a “stacked hourglass” network based on the successive steps of pooling and upsampling that are done to produce a fifinal set of predictions. State-of-the-art(最先进的) results are achieved on the FLIC and MPII benchmarks outcompeting all recent methods.
我们将该体系结构称为“堆叠沙漏”网络,其基础是连续的池化和重采样步骤,这些步骤用于生成最后一组预测。在fic和mpii基准上取得了最先进的结果,比所有最近的方法都要好.
我们的位姿估计网络由多个累加沙漏模块组成,这些模块允许重复的自下而上、自上而下的堆叠。
一、引言
A key step toward understanding people in images and video is accurate pose estimation.
准确的姿态估计是理解图像和视频中人的关键一步。
Given a single RGB image, we wish to determine the precise pixel location of important keypoints of the body.
给定一幅RGB图像,我们希望确定身体重要关键点的精确像素位置。
Achieving an understanding of a person’s posture and limb articulation is useful for higher level tasks like action recognition, and also serves as a fundamental tool in fifields such as human computer interaction and animation.
理解一个人的姿势和肢体语言对于更高层次的任务(如动作识别)是有用的,同时也是诸如人机交互和动画等领域中的一个基本工具。
As a well established problem in vision, pose estimation has plagued researchers with a variety of formidable challenges over the years.
姿态估计是一个公认的视觉问题,多年来一直困扰着研究者们各种艰巨的挑战。
A good pose estimation system must be robust to occlusion and severe deformation, successful on rare(罕见的,特殊的) and novel( 异常的) poses, and invariant to changes in appearance due to factors like clothing and lighting.
一个好的姿态估计系统必须是在各种罕见而奇怪的姿态,和不变的外观变化的因素,如服装和照明下抗遮挡和严重变形的。
Early work tackles such diffiffifficulties using robust image features and sophisticated structured prediction [1–9]: the former is used to produce local interpretations, whereas the latter is used to infer a globally consistent pose.
早期的工作使用稳健的图像特征和复杂的结构化预测来解决这种差异[1-9]:前者被用来产生局部解释,而后者被用来推断一个全局一致的姿态。
This conventional pipeline, however, has been greatly reshaped by convolutional neural networks (ConvNets) [10–14], a main driver behind an explosive rise in performance across many computer vision tasks.
然而,这种传统的管道已经被卷积神经网络(convnets)[10–14]大大重塑,这是许多计算机视觉任务中性能爆炸性提升的主要驱动因素。
Recent pose estimation systems [15–20] have universally adopted ConvNets as their main building block, largely replacing hand-crafted features and graphical models; this strategy has yielded drastic improvements on standard benchmarks [1, 21, 22].
最近的姿态估计系统[15-20]普遍采用卷积神经网络作为它们的主要组成部分,在很大程度上取代了手工制作的特性和图形模型;这一策略在标准基准[1,21,22]上取得了巨大的改进。
We continue along this trajectory and introduce a novel “stacked hourglass” network design for predicting human pose.
我们继续沿着这个轨迹,并介绍了一种新的“堆叠沙漏”网络设计,以预测人类的姿态。
The network captures and consolidates information across all scales of the image.
网络在图像的所有尺度上捕获和合并信息。
We refer to the design as an hourglass based on our visualization of the steps of pooling and subsequent upsampling used to get the fifinal output of the network.
我们将该设计称为沙漏,基于我们对池化和随后的重采样步骤的可视化,这些步骤用于获取网络的最终输出。
Like many convolutional approaches that produce pixel-wise outputs, the hourglass network pools down to a very low resolution, then upsamples and combines features across multiple resolutions [15, 23]. On the other hand, the hourglass diffffers from prior designs primarily in its more symmetric topology.
就像许多产生像素级输出的卷积方法一样,沙漏网络聚集到一个非常低的分辨率,然后对多分辨率的特性进行升级和组合[15,23]。另一方面,沙漏与以前的设计主要是在其更对称的拓扑结构。
We expand on a single hourglass by consecutively placing multiple hourglass modules together end-to-end.
我们通过将多个沙漏模块连在一起来扩展单个沙漏。
This allows for repeated bottom-up, top-down inference across scales.
这允许重复的自下而上,自上而下的跨尺度推理.
In conjunction with the use of intermediate supervision, repeated bidirectional inference is critical to the network’s fifinal performance.
在使用中间监督的同时,重复的双向推理对于网络的最终性能至关重要。
The fifinal network architecture achieves a signifificant improvement on the state of-the-art for two standard pose estimation benchmarks (FLIC [1] and MPII Human Pose [21]).
最后一种网络体系结构对两种标准姿态估计基准(fic[1]和mpii人工姿态[21])的现状进行了显著的改进。
On MPII there is over a 2% average accuracy improvement across all joints, with as much as a 4-5% improvement on more diffiffifficult joints like the knees and ankles.
在Mpii有超过2%的平均精度提高的所有关节,多达4%-5%的改善更多的差异关节,如膝盖和脚踝。
二、相关工作
With the introduction of “DeepPose” by Toshev et al. [24], research on human pose estimation began the shift from classic approaches [1–9] to deep networks.
介绍了Toshev等人提出的“深度”一词。[24]对人体姿态估计的研究开始了从传统方法[1-9]向深度网络的转变。
Toshev et al. use their network to directly regress the x,y coordinates of joints.
Toshev等人利用他们的网络直接回归关节的x,y坐标。
The work by Tompson et al. [15] instead generates heatmaps by running an image through multiple resolution banks in parallel to simultaneously capture features at a variety of scales.
汤普森等人的工作。[15]相反,通过在多分辨率组中运行一幅图像,同时在各种尺度上捕获特征,从而生成热图。
Our network design largely builds offff of their work, exploring how to capture information across scales and adapting their method for combining features across difffferent resolutions.
我们的网络设计在很大程度上建立了他们工作的基础,探索如何跨尺度捕获信息,并调整他们的方法,将不同分辨率的特性组合在一起。
我们的网络产生的例子输出。在左边,我们看到每个热图的最大激活所提供的最终姿态估计值。在右边,我们显示样本热图。(从左到右:颈、左肘、左手腕、右膝、右脚踝)
A critical feature of the method proposed by Tompson et al. [15] is the joint use of a ConvNet and a graphical model.
Tompson等人提出的方法的一个关键特征。[15]是convnet和图形模型的联合使用。
Their graphical model learns typical spatial relationships between joints.
它们的图形模型学习关节之间典型的空间关系。
Others have recently tackled this in similar ways [17, 20, 25] with variations on how to approach unary score generation and
pairwise comparison of adjacent joints.
其他人最近以类似的方式[17,20,25]解决了这一问题,并对如何对相邻关节进行一元记分和配对比较进行了不同的处理。
Chen et al. [25] cluster(使聚集) detections(侦查) into typical orientations(方向) so that(以致) when their classififier(分类器) makes predictions additional information is available indicating the likely location of a neighboring joint.
Chen等人[25]聚类检测到典型的方向,以便当分类器进行预测时,可以获得额外的信息,指示相邻联合的可能位置。
We achieve superior performance without the use of a graphical model or any explicit modeling of the human body.
我们在不使用图形模型或任何显式人体模型的情况下获得了优异的性能。
There are several examples of methods making successive predictions for pose estimation. Carreira et al. [19] use what they refer to as Iterative Error Feedback.
对姿态估计进行连续预测的方法有几个例子。Carreira等人[19]使用他们被称为的迭代错误反馈。
A set of predictions is included with the input, and each pass through the network further refifines these predictions.
输入包括一组预测,每一次通过网络进一步修改这些预测。
Their method requires multi-stage training and the weights are shared across each iteration.
他们的方法需要多阶段训练,并且权重在每个迭代之间共享。
Wei et al. [18] build on the work of multi-stage pose machines [26] but now with the use of ConvNets for feature extraction.
魏等人[18]建立在多级姿态机[26]的工作基础上,但现在用卷积网络进行特征提取。
Given our use of intermediate supervision, our work is similar in spirit to these methods, but our building block (the hourglass module) is difffferent.
由于我们使用中间监督,我们的工作在精神上类似于这些方法,但是我们的构建块(沙漏模块)是不同的。
Hu & Ramanan [27] have an architecture more similar to ours that can also be used for multiple stages of predictions, but their model ties weights in the bottom-up and top-down portions of computation as well as across iterations.
Hu&Ramanan[27]的体系结构更类似于我们的体系结构,也可以用于多个预测阶段,但它们的模型在计算的自下而上和自顶向下部分以及迭代中都有权重。
Tompson et al. build on their work in [15] with a cascade to refifine predictions.
汤普森等人在他们[15]工作的基础上,用一个级联来修正预测。
This serves to increase effiffifficency and reduce memory usage of their method while improving localization performance in the high precision range [16].
这有助于提高效率并减少其方法的内存使用,同时提高高精度范围内的本地化性能[16]。
One consideration is that for many failure cases a refifinement of position within a local window would not offffer much improvement since error cases often consist of either occluded or misattributed limbs.
一个考虑因素是,在许多有问题的情况下,对本地窗口内位置的重新定义不会带来很大的改善,因为错误案例通常包括被遮挡或错误归因的肢体。
For both situations, any further evaluation at a local scale will not improve the prediction.
对于这两种情况,任何在局部尺度上的进一步评估都不会改进预测。
There are variations to the pose estimation problem which include the use of additional features such as depth or motion cues.
姿态估计问题有一些变化,包括使用其他特征,如深度或运动线索。
Also, there is the more challenging task of simultaneous annotation of multiple people [17, 31].
此外,还有一项更具有挑战性的任务是同时关注多个人[17,31]
In addition, there is work like that of Oliveira et al. [32] that performs human part segmentation based on fully convolutional networks [23].
此外,还有类似Oliveira等人的工作。[32]执行基于完全卷积网络的人体部位分割[23]。
Our work focuses solely on the task of keypoint localization of a single person’s pose from an RGB image.
我们的工作主要集中在从RGB图像中对单个人的姿势进行KeyPoint定位的任务。
一个“沙漏”模块的插图。图中的每个框对应一个剩余模块,如图4所示。在整个沙漏中,特性的数量是一致的。
Our hourglass module before stacking is closely connected to fully convolutional networks [23] and other designs that process spatial information at multiple scales for dense prediction [15, 33–41].
我们堆叠前的沙漏模块与全卷积网络[23]和其他在多尺度上处理空间信息的设计紧密相连,用于密集预测[15,33-41]。
Xie et al. [33] give a summary of typical architectures. Our hourglass module diffffers from these designs mainly in its more symmetric distribution of capacity between bottom-up processing (from high resolutions to low resolutions) and top-down processing (from low resolutions to high resolutions).
谢等人[33]总结典型结构。我们的沙漏模块与这些设计不同,主要是因为它在自下而上处理(从高分辨率到低分辨率)和自顶向下处理(从低分辨率到高分辨率)之间的容量分布更为对称。
For example, fully convolutional networks [23] and holistically-nested architectures [33] are both heavy in bottom-up processing but light in their top-down processing, which consists only of a (weighted) merging of predictions across multiple scales.
例如,完全卷积网络[23]和整体嵌套体系结构[33]都是自下而上处理的重中之重,但它们的自顶向下处理很轻,而自顶向下的处理只包括多尺度预测的(加权)合并。
Fully convolutional networks are also trained in multiple stages.
全卷积网络也在多个阶段进行训练。
The hourglass module before stacking is also related to conv-deconv and encoder-decoder architectures [42–45].
堆叠前的沙漏模块也与反卷积和编解码结构[42-45]有关.
Noh et al. [42] use the conv-deconv architecture to do semantic segmentation, Rematas et al. [44] use it to predict reflflectance maps of objects.
Noh等人[42]使用反卷积结构进行语义分割,rematas等。[44]利用它预测物体的反射图。
Zhao et al. [43] develop a unifified framework for supervised, unsupervised and semi-supervised learning by adding a reconstruction loss.
Zhao等人[43]通过增加重建损失,为监督、无监督和半监督学习建立一个统一框架。
Yang et al. [46] employ an encoder-decoder architecture without skip connections for image generation. Rasmus et al. [47] propose a denoising auto-encoder with special, “modulated” skip connections for unsupervised/semi-supervised feature learning.
Yang等人[46]采用不需要跳过连接的编解码结构来生成图像。Rasmus等人[47]提出了一种具有特殊“调制”跳过连接的去噪自动编码器,用于无监督/半监督特征学习。
The symmetric topology of these networks is similar, but the nature of the operations is quite difffferent in that we do not use unpooling or deconv layers.
这些网络的对称拓扑是相似的,但操作的性质是非常不同的,因为我们不使用反池化或反卷积层。
Instead, we rely on simple nearest neighbor upsampling and skip connections for top-down processing.
相反,我们依靠简单的最近邻上采样和跳层结构进行自顶向下的处理.
Another major difffference of our work is that we perform repeated bottom-up, top-down inference by stacking multiple hourglasses.
我们工作的另一个主要不同之处是,我们通过堆叠多个沙漏来执行重复的自下而上、自上而下的推论。
三、网络结构
3.1沙漏玻璃设计
The design of the hourglass is motivated by the need to capture information at every scale.
沙漏设计的动机是需要在每个尺度上捕获信息。
While local evidence is essential for identifying features like faces and hands, a fifinal pose estimate requires a coherent understanding of the full body.
虽然局部现象对于识别面部和双手等特征是必不可少的,但是最后的姿势估计需要对整个身体有一个连贯的理解。
The person’s orientation, the arrangement of their limbs, and the relationships of adjacent joints are among the many cues that are best recognized at difffferent scales in the image.
人的方向、四肢的排列和相邻关节的关系是图像中最能在不同尺度上识别的许多线索之一。
The hourglass is a simple, minimal design that has the capacity to capture all of these features and bring them together to output pixel-wise predictions.
沙漏是一个简单的,最小的设计,有能力捕捉所有这些功能,并将它们结合在一起,以输出像素级的预测。
The network must have some mechanism to effffectively process and consolidate features across scales. Some approaches tackle this with the use of separate pipelines that process the image independently at multiple resolutions and combine features later on in the network [15, 18].
网络必须有某种机制来有效地处理和整合不同规模的特征。有些方法通过使用单独的管道来解决这一问题,这些管道以多种分辨率独立处理图像,并在网络[15,18]中结合功能。
Instead, we choose to use a single pipeline with skip layers to preserve spatial information at each resolution.
相反,我们选择使用具有跳层的单个管道来保留每个分辨率的空间信息。
The network reaches its lowest resolution at 4x4 pixels allowing smaller spatial fifilters to be applied that compare features across the entire space of the image.
该网络达到了4x4像素的最低分辨率,允许应用较小的空间光纤滤波器来比较图像整个空间的特征。
The hourglass is set up as follows: Convolutional and max pooling layers are used to process features down to a very low resolution.
沙漏设置如下:卷积和最大池层被用来处理特征,直到非常低的分辨率。
At each max pooling step, the network branches offff and applies more convolutions at the original pre-pooled resolution.
在每个最大池步骤,网络分支和应用更多的卷积在最初的预聚分辨率。
After reaching the lowest resolution, the network begins the top-down sequence of upsampling and combination of features across scales.
在达到最低分辨率后,网络开始了从上到下的上采样序列和跨尺度特征的组合。
To bring together information across two adjacent resolutions, we follow the process described by Tompson et al. [15] and do nearest neighbor upsampling of the lower resolution followed by an elementwise addition of the two sets of features.
为了汇集跨两个相邻决议的信息,我们遵循汤普森等人所描述的过程。[15]并对分辨率较低的最近邻进行上采样,然后对这两组特征进行元素加法。
The topology of the hourglass is symmetric, so for every layer present on the way down there is a corresponding layer going up.
沙漏的拓扑是对称的,所以在下边的每一层上都有一个对应的层。
After reaching the output resolution of the network, two consecutive rounds of 1x1 convolutions are applied to produce the fifinal network predictions.
在达到网络的输出分辨率后,将连续两轮1x1卷积用于产生最终网络预测。
The output of the network is a set of heatmaps where for a given heatmap the network predicts the probability of a joint’s presence at each and every pixel.
网络的输出是一组热图,对于给定的热图,网络预测节点在每个像素上存在的概率。
The full module (excluding the fifinal 1x1 layers) is illustrated in Figure 3.
图3显示了完整的模块(不包括最后的1x1层)。
3.2层实现
While maintaining the overall hourglass shape, there is still some flflexibility in the specifific implementation of layers.
在保持整个沙漏形状的同时,层的特殊实现仍然有一些灵活性。
Difffferent choices can have a moderate impact on the fifinal performance and training of the network. We explore several options for layer design in our network.
不同的选择会对网络的最终性能和训练产生适度的影响。我们探索了几种在我们的网络中进行层设计的选择。
Recent work has shown the value of reduction steps with 1x1 convolutions, as well as the benefifits of using consecutive smaller fifilters to capture a larger spatial context. [12, 14]
最近的研究显示了使用1x1卷积的减少步骤的价值,以及使用连续较小的fifilter捕获更大的空间上下文的益处。[12,14].
For example, one can replace a 5x5 fifilter with two separate 3x3 fifilters. We tested our overall network design, swapping in difffferent layer modules based offff of these insights.
例如,可以用两个独立的3x3滤波器替换5x5滤波器。我们测试了我们的总体网络设计,交换了基于这些洞察力的不同层模块。
We experienced an increase in network performance after switching from standard convolutional layers with large fifilters and no reduction steps to newer methods like the residual learning modules presented by He et al. [14] and “Inception”-based designs [12].
我们经历了从标准卷积层切换到大型fifilters之后的网络性能的增加,并且对于像他等[14]和基于“一开始”的设计[12]所呈现的残差学习模块那样的较新方法没有减少步骤。
After the initial performance improvement with these types of designs, various additional explorations and modififications to the layers did little to further boost performance or training time.
在对这些类型的设计进行了最初的性能改进之后,对这些层的各种额外的探索和修改对进一步提高性能或训练时间几乎没有什么作用。
图4.左:我们在整个网络中使用的残差模块[14]。右:中级监督程序的渗透。网络分裂并产生一组热图(以蓝色表示),其中可以应用损失。1x1卷积映射热图以匹配中间特征的通道数。这些功能与前一个沙漏中的特性一起添加。
Our fifinal design makes extensive use of residual modules. Filters greater than 3x3 are never used, and the bottlenecking restricts the total number of parameters at each layer curtailing total memory usage.
我们的最终设计充分利用了剩余模块。从来不使用大于3x3的滤波器,瓶颈限制了每一层的参数总数,从而减少了内存的总使用量。
The module used in our network is shown in Figure 4. To put this into the context of the full network design, each box in Figure 3 represents a single residual module.
在我们的网络中使用的模块如图4所示,为了将其放入整个网络设计的上下文中,图3中的每个框表示一个剩余模块。
Operating at the full input resolution of 256x256 requires a signifificant amount of GPU memory, so the highest resolution of the hourglass (and thus the fifinal output resolution) is 64x64.
以256x256的完全输入分辨率工作需要相当数量的GPU内存,因此沙漏的最高分辨率(因此也就是最终的输出分辨率)是64x64。
This does not affffect the network’s ability to produce precise joint predictions. The full network starts with a 7x7 convolutional layer with stride 2, followed by a residual module and a round of max pooling to bring the resolution down from 256 to 64.
这并不影响网络产生精确的联合预测的能力。整个网络从一个7x7卷积层开始,步长为2,然后是一个剩余模块和一轮最大池,将分辨率从256降到64。
Two subsequent residual modules precede the hourglass shown in Figure 3. Across the entire hourglass all residual modules
output 256 features.
图3所示的沙漏之前有两个后续的剩余模块,在整个沙漏中,所有剩余模块都输出256个特性。
3.3中间监督下的堆叠沙漏网络
We take our network architecture further by stacking multiple hourglasses endto-end, feeding the output of one as input into the next.
我们通过将多个沙漏端到端堆叠来进一步推进我们的网络架构,将一个沙漏的输出作为输入到下一个沙漏。
This provides the network with a mechanism for repeated bottom-up, top-down inference allowing for reevaluation of initial estimates and features across the whole image.
这为网络提供了一种重复自下而上、自上而下推理的机制,允许对整个图像的初始估计和特征进行重新评估。
The key to this approach is the prediction of intermediate heatmaps upon which we can apply a loss.
这种方法的关键是预测中间热图,我们可以应用损失。
Predictions are generated after passing through each hourglass where the network has had an opportunity to process features at both local and global contexts.
预测是在网络有机会在本地和全局环境中处理特性的每个沙漏之后生成的。
Subsequent hourglass modules allow these high level features to be processed again to further evaluate and reassess higher order spatial relationships.
随后的沙漏模块允许再次处理这些高级特性,以进一步评估和重新评估更高层次的空间关系。
This is similar to other pose estimations methods that have demonstrated strong performance with multiple iterative stages and intermediate supervision [18, 19, 30].
这与其他姿态估计方法相似,这些方法具有很强的性能,具有多个迭代阶段和中间监督。
Consider the limits of applying intermediate supervision with only the use of a single hourglass module. What would be an appropriate place in the pipeline to generate an initial set of predictions?
考虑只使用一个沙漏模块应用中间监督的限制。在管道中有什么合适的地方来产生一组初步的预测?
Most higher order features are present only at lower resolutions except at the very end when upsampling occurs.
大多数高阶特征只出现在较低的分辨率,除非在结束时发生过采样。
If supervision is provided after the network does upsampling then there is no way for these features to be reevaluated relative to each other in a larger global context.
如果在网络重新采样之后提供了监督,那么在更大的全局范围内,就无法相对地对这些特性进行重新评估。
If we want the network to best refifine predictions, these predictions cannot be exclusively evaluated at a local scale.
如果我们想让网络最好地重新定义预测,那么这些预测就不能完全在本地范围内进行评估。
The relationship to other joint predictions as well as the general context and understanding of the full image is crucial.
与其他联合预测的关系,以及对整个形象的总体背景和理解是至关重要的。
Applying supervision earlier in the pipeline before pooling is a possibility, but at this point the features at a given pixel are the result of processing a relatively local receptive fifield and are thus ignorant of critical global cues.
在流水线的早期应用监督是可能的,但在这一点上,给定像素上的特征是处理相对局部可接受的Fifield的结果,因此不了解关键的全局提示。
Repeated bottom-up, top-down inference with stacked hourglasses alleviates these concerns.
反复自下而上、自上而下地推断出叠加小时眼镜减轻了这些问题。
Local and global cues are integrated within each hourglass module, and asking the network to produce early predictions requires it to have a high-level understanding of the image while only partway through the full network.
在每个沙漏模块中集成了本地和全局的线索,并且要求网络产生早期的预测,这需要它对图像有一个高水平的理解,而只有在整个网络的一半过程中。
Subsequent stages of bottom-up, top-down processing allow for a deeper reconsideration of these features.
自下而上、自上而下处理的后续阶段允许对这些特性进行更深入的重新考虑。
This approach for going back and forth between scales is particularly important because preserving the spatial location of features is essential to do the fifinal localization step.
这种在尺度之间来回移动的方法特别重要,因为保持特征的空间位置对于完成最后的定位步骤至关重要。
The precise position of a joint is an indispensable cue for other decisions being made by the network. With a structured problem like pose estimation, the output is an interplay of many difffferent features that should come together to form a coherent understanding of the scene.
联合的确切位置是网络作出其他决定的一个不可缺少的线索。对于像姿态估计这样的结构化问题,输出是许多不同特征的相互作用,它们应该结合在一起,形成对场景的一致理解。
Contradicting evidence and anatomic impossiblity are big giveaways that somewhere along the line a mistake was made, and by going back and forth the network can maintain precise local information while considering and then reconsidering the overall coherence of the features.
矛盾的证据和解剖上的不可能是一个巨大的问题,在沿线上的某个地方犯了一个错误,并且通过来回移动网络可以保持精确的本地信息,同时考虑并然后重新考虑特征的总体一致性。
We reintegrate intermediate predictions back into the feature space by mapping them to a larger number of channels with an additional 1x1 convolution.
我们将中间预测重新整合到特征空间,将它们映射到更多的通道上,再加上1x1卷积。
These are added back to the intermediate features from the hourglass along with the features output from the previous hourglass stage (visualized in Figure 4).
这些特性被添加回沙漏的中间特性,以及上一个沙漏阶段输出的特性(如图4所示)。
The resulting output serves directly as the input for the following hourglass module which generates another set of predictions.
结果输出直接用作以下沙漏模块的输入,该模块生成另一组预测。
In the fifinal network design, eight hourglasses are used. It is important to note that weights are not shared across hourglass modules, and a loss is applied to the predictions of all hourglasses using the same ground truth.
在最后的网络设计中,使用了8个沙漏。重要的是要注意的是,权重不是在沙漏模块之间共享的,并且损失适用于所有沙漏使用相同的地面真理的预测。
The details for the loss and ground truth are described below.
损失和地面真相的细节说明如下。
3.4训练细节
我们评估我们的网络在两个基准数据集,fic[1]和MPII人类姿态[21]。FLIC由5003幅图像(3987次训练,1016次测试)组成。图像被标注在上半身,大多数图形都直接面对着摄像机。MPII人类姿态包括约25k图像和注释多人提供40k注解样本(28k训练,11k测试)。测试注释并不是提供的,所以在我们所有的实验中,我们在训练图像的子集上进行训练,同时在大约3000个样本的heldout验证集上进行评估。MPII包括从广泛的人类活动中拍摄的图像,以及一系列具有挑战性的、被广泛阐述的全身姿势。
在给定的输入图像中通常有多个人可见,但是没有图形模型或其他后处理步骤,图像必须为网络传递所有必要的信息,以确定哪个人值得进行注释。我们通过训练网络专门注释直接中心的人来处理这个问题。根据Torsobox注释,这是在fic中通过沿x轴对中进行的-不进行垂直调整或规模规范化。对于MPII,标准使用所有图像所提供的缩放和中心注释。对于每个示例,这些值用于在目标人员周围裁剪图像。然后将所有输入图像调整为256x256像素。我们进行数据增强,包括旋转(/-30度)和缩放(0.75-1.25)。我们避免了图像的翻译增强,因为目标人物的位置是决定谁应该被网络注释的关键线索。
网络使用Torch7[48]进行培训,为了优化,我们使用rmsprop[49],学习速率为2.5e4。对于12GBNVIDIATitanXGPU,培训大约需要3天。验证准确度平台后,我们将学习率降低一次5倍。批次规范化[13]也用于改进培训。网络的单一正向通过需要75毫秒。为了生成最终测试预测,我们通过网络运行原始输入和flfliped版本的图像,并将热映射一起平均(在验证时平均改善1%)。网络的最终预测是给定关节的热贴图的最大激活位置。
和汤普森等人一样的技术。[15]用于监督。采用均方误差(MSE)损失,将预测的热图与以联合位置为中心的二维高斯(标准差为1 px)的地面真实热图进行比较。为了提高精度阈值的性能,在转换回图像的原始坐标空间之前,在其下一个最高邻域的方向上将预测值设置为像素的四分之一。在MPII人体姿态中,有些关节没有相应的地面真实标注。在这种情况下,关节要么被截断,要么被严重遮挡,因此为了监督,提供了所有零点的地面真实热图。
四、结论
4.1评价
评估是使用标准百分比的正确关键点(PCK)度量,它报告的百分比的检测,在一个归一化距离内的地面真相。对于fic,距离是由躯干大小标准化的,对于MPII则是头部大小的一小部分(称为PCKh)。结果如图6和表1所示。我们在FLIC上的结果非常有竞争力,肘部的PCK@0.2精度达到99%,手腕上的准确率达到97%。值得注意的是,这些结果是以观察者为中心的,这与其他人如何在fic上评估他们的输出是一致的。
图8.训练过程中验证精度的比较。精确度平均在手腕、肘部、膝盖和脚踝。不同的网络设计在右边显示,圆圈用来表示损失在哪里。
MPII:我们在MPIIHumanPose数据集上的所有关节上获得最先进的结果。所有数字见表2以及图7中的PCK曲线。在腕关节、肘部、膝盖和脚踝等困难关节上,我们在最新的最先进结果中提高了3.5%(PCKh@0.5),平均错误率从16.3%下降12.8%。最终肘关节准确度为91.2%,手腕精度为87.1%。MPII网络的预测示例见图5。
4.2烧蚀实验
本文探讨了两种主要的设计方案:一是将玻璃模块叠合在一起的效果,二是中间监督的影响。这些并不是相互独立的,因为我们在如何应用中间监督方面受到限制,这取决于总体架构设计。单独应用后,每一种方法都会对运动性能产生积极的影响,并且在训练速度和最终姿态估计性能上都有了进一步的提高。我们观察了一些不同的网络设计的训练率。其结果可以在图8中看到,图8显示了随着训练的进展,值集的平均准确性。精度度量考虑了所有的关节,不包括与头部和躯干相关的关节,以便更容易地在实验中进行差异。
首先,为了探索沙漏设计的效果,我们必须指出,性能的变化是建筑形状的一个函数,而不是一个更大、更深的网络的容量增加的结果。为了进行这种比较,我们从一个由八个沙漏模块组成的基线网络中进行工作。每个沙漏在每个分辨率上都有一个剩余模块,如图3所示。减少沙漏的数量将导致每个沙漏的容量增加。例如,对应的网络可以堆叠四个沙漏,并且在每个分辨率上有两个连续的剩余模块(或者两个沙漏和四个剩余模块)。图9说明了这一点。所有网络都共享相同数量的参数和层,但是当应用更多的中间监控时,会引入一些细微的差异。
图9.左:示例验证图像,说明预测从中间阶段(第二沙漏)(左)到第五预测(第八沙漏)(右)的变化。右图:在网络的中间阶段,通过不同的堆叠安排比较验证的准确性。
为了观察这些选择的效果,我们首先比较了沙漏中每个阶段有四个剩余模块的两层网络,以及一个小时的玻璃,但取而代之的是八个剩余模块。在图8中,它们分别称为HG-堆栈和HG。尽管层数和参数大致相同,但在使用堆叠设计时,可以看到训练方面的适度改进。其次,我们考虑了中间监管的影响。对于两层网络,我们遵循本文所描述的程序来实施监督.在一个沙漏中应用同样的概念并不容易,因为高阶全局特征只在较低的分辨率下出现,而跨尺度的特征直到后期才被合并。我们探索在网络中的各个点应用监督,例如在池之前或之后,以及在不同的解决方案中。在图8中,表现最好的方法为HG-Int,在第五次输出分辨率之前的两个最高分辨率的上采样之后,应用了中间监督。这种监督确实提高了性能,但不足以超过包括堆叠在内的改进(HG-堆栈-Int)。在图9中,我们比较了共享大约相同数量的参数的2-、4-和8堆栈MOD ELL的验证精度,并包括它们中间预测的准确性。每增加一次堆叠的最后业绩,就会有轻微的改善,由87.4%增至87.8%至88.1%。在中间阶段效果更显着。例如,在每个网络的一半,相应的中间预测的准确率是:84.6%,86.5%和87.1%。请注意,在8层网络的中间部分的精度仅低于2层网络的最终精度。观察网络早期犯的错误和后来改正的错误是很有趣的。图9显示了一些例子,常见的错误就像其他人关节的混合,或者左、右的错误。对于正在运行的文件,从最后的热图中可以明显看出,对于网络来说,左右之间的决定仍然有点模糊。鉴于图像的外观,混淆是合理的。一个值得注意的案例是中间的例子,其中网络最初激活在图像中可见的手腕上。在进一步处理时,热图根本不激活在原来的位置,而是选择一个合理的位置为被遮挡的手腕。
图10.输入图像的微小平移和尺度变化所产生的差异。该网络根据所述中央图确定要为谁生成注释。输入图像的缩放和移位权足够网络切换其预测。
5进一步分析
5.1当图像中有多个人时,一致性问题就显得尤为重要。网络必须决定给谁加注释,但是只有有限的选择来交流谁应该得到注释。为了这项工作的目的,提供的唯一信号是目标人的中心和缩放,相信输入将足够清晰以进行解析。不幸的是,当人们非常接近甚至重叠的时候,这偶尔会导致模棱两可的情况,如图10所示。由于我们正在训练一个系统来生成单个人的姿态预测,在不明确的情况下,理想的输出将显示出对一个人的关节的承诺。即使预测的质量较低,这也将显示出对手头任务的更深入理解。不考虑手腕可能属于谁的手腕位置估计是来自姿态估计系统的不想要的行为。图10中的结果来自MPII测试映像。网络必须为男孩和女孩产生预测,并为此提供各自的中心和规模注释。使用这些值为网络裁剪输入图像会导致第一和第三帧图像。在720x1280图像中,这两位舞者的中心注释仅差26个像素。定性地说,两幅输入图像之间最明显的差异是尺度的变化。这种差异足以使网络完全改变其估计,并为正确的图预测注释。
5.2闭塞阻塞性能可能是评估的结果,因为它通常分为两种不同的类型。类别。FIRST包含关节不可见但其位置不可见的情况在图像的上下文中显而易见。MII通常提供接地这些关节的真实位置,另一个注释表示它们缺乏可见性。另一方面,当存在第二种情况时,绝对没有关于特定关节的位置的信息。例如,仅在人身体上半部分可见的图像。在MII中,这些关节将不具有与它们关联的地面真实注释。我们的系统不使用附加的可见性注释,但我们可以仍需看一看可见性对性能的影响。约75%的带注释的弯头和手腕标注在我们的保持验证中可见设置。在图11中,我们比较了整个验证的平均性能在可见和/的接缝的四分之三处设置性能在剩下的季度业绩不在。仅考虑可见的关节、手腕精度高达93.6%(85.5%)(验证性能)略高于测试集性能(87.1%)。另一方面,完全闭塞关节的性能为61.1%。对于弯头,精度来自于可见关节的基线为90.5%至95.1%,闭塞为74.0%接头。阻塞显然是一个明显的挑战但网络仍然大多数情况下都有很强的估计。在许多示例中,网络预测和地-真相注释可能不一致,同时两者都驻留在有效位置,并且图像的模糊性意味着没有一种方法来确定哪一个确实是正确的。还考虑了一个更加极端的情况,在这种情况下,接头可能严重地OC,包括或截断,因此根本没有注释。PCK度量在评估姿势估计系统时使用不会反射这些系统的位置网络识别情况。如果没有地面真理annotta为接头提供的连接不可能评估预测的质量由系统进行,因此不计入FidFinal报告的PCK值。因此,即使在对所有接头产生预测方面也没有任何损害。尽管对完全闭塞或截断的接头的预测将没有意义。为了在实际系统中使用,元知识的程度是必需的,并且不能对特定接头进行良好预测的理解非常重要。我们观察到我们的网络是一致和准确的预测是否可以为关节提供地面真实注释。我们考虑了这一分析的脚踝和膝盖,因为这些都是闭塞的最常见的。下肢经常从图像中裁剪出来,如果我们总是形象化我们网络的所有联合预测,例如摆姿势。考虑到在这些情况下做出的无意义的更低的身体预测是不能接受的情况。为了一个简单的方法来滤除这些情况我们检查一个井可以确定给定相应的关节的注释的存在热图激活。我们考虑对最大值的阈值进行阈值处理。热图或其平均值。可以看到相应的精确回忆曲线,在图11中。我们发现仅仅基于热图的平均激活的OffFF可以正确地评估膝的注释的存在,AUC为92.1%,踝部的AUC为96.0%。这在2958个样本的验证集中进行,其中16.1%的可能膝关节而28.4%的可能的脚踝没有地面真实的注释。这是将热图用作有用信号的有希望的结果在图像中指示截断和严重闭塞的情况。
6结论
我们证明了沙漏叠加网络对人体姿态估计的有效性。该网络处理一组多样且具有挑战性的姿势,其简单的机制用于重新评估和评估初始预设。中间监督对于培训网络至关重要,在堆叠沙漏模块的情况下最好地工作。目前还存在网络处理不完善的问题,但总体上我们的系统对各种挑战表现出了较强的鲁棒性,包括严重的遮挡和接近的多个人。