Adversarial PoseNet: A Structure-aware Convolutional Network for Human Pose Estimation翻译

对抗性的PoseNet:一种对于人类姿态估计的结构感知的卷积网络

摘要:

在单目图像中,人的姿态估计,关节遮挡和重叠在人体上经常导致偏差的姿势预测。 在这种情况下,可能会产生生物学上难以置信的姿态预测。 与此相反,人类视觉通过利用节点间连接的几何约束来预测姿态。为了解决这一问题,我们提出了一种新型的结构感知的卷积网络,在深度网络训练过程中,隐式地将这些先验引入考虑。这种约束的明确学习通常具有挑战性。 相反,我们设计鉴别器来区分真实的姿势和假的姿势(如生物学上不像真实的)。 如果该姿态发生器(G)产生的结果是鉴别器不能与真实的相区别,那么网络成功地学习了先验。

为了更好地捕捉人体关节的结构依赖性,我们设计了一种堆叠的多任务方式来预测姿势和遮挡热图。 然后,将姿势和遮挡热图发送给鉴别器,以预测姿态是真实的的可能性。 网络的训练遵循有条件的生成对抗网络(GANs)的策略。 该网络的有效性在两种被广泛使用的人类姿态估计基准数据集上进行了评估。 我们的方法远远超过了最先进的方法,而且几乎总是产生貌似真实的人体姿势的预测。

简介:

人的姿态估计是理解图像和视频中人们行为的关键步骤。 了解一个人的肢体关节位置对于像人类跟踪、动作识别这样的高级视觉任务非常有帮助,同时也是人机交互应用领域的基本工具。在计算机视觉中,由于肢体的灵活性、自身的和外部的遮挡、不同的摄像角度等,这是一项具有挑战性的任务。 最近,通过使用深度卷积神经网络(DCNNs)[30、29、31、6、33、19、4],在这个课题上取得了显著的进步。 这些方法主要是采用DCNNs对每个身体部分的热图进行回归的策略。 这些回归模型显示了学习更好的特征表示的巨大能力。然而,对于重度遮挡的身体部位(尤其是周围人的身体部位)和与身体部位相似的背景,DCNNs可能会难以回归精确的热图。

人类的视觉能够从观察中学习人类形体结构的多样性和无限。 即使在极端的遮挡下,我们也可以推断出潜在的姿势,并移除不可信的姿势。 然而,将人体结构的先验纳入到DCNNs中是非常具有挑战性的,因为正如[30]所指出的,DCNNs的底层机制通常难以解释,而DCNNs最具有学习特征的能力。

因此,一个不合理的人体姿势可能是由标准的DCNN制作的。如图1所示,在具有严重遮挡的具有挑战性的测试用例中,标准DCNNs往往表现不佳。要解决这个问题,就必须考虑人体关节的结构。 这个问题的关键是要从大量的训练数据中学习真实的身体关节分布。 然而,明确地学习这种分布是非常困难的。

图1:动力。 我们展示了在DCNNs对于人体姿态预测的训练阶段中,对人体结构的先验知识的重要性。 学习而不使用这些先验会产生不准确的结果。

为了解决这个问题,我们试图隐式地学习人体结构的分布。 我们假设我们有一个“鉴别器”,它可以判断所预测的姿势是否具有几何合理性。 如果DCNN回归是能够“欺骗”判别器的,判别器的预测都是合理,那么网络就是成功地学习到人体结构的先验。我们建议设计“甄别器”作为鉴别器网络,而回归网络作为生成网络的功能,受到最近在生成对抗性网络(GAN)的成功的启发[23,38,26,11,8]。 用对抗性的方式来训练生成器对抗鉴别器完全符合我们的意图。

为了实现上述目标,需要对鉴别器提供足够的信息来进行分类,而生成器应该具有对姿态估计中复杂特征进行建模的能力。 因此,设计了一种多任务学习网络G,它同时对姿态热图和遮挡热图进行了回归。根据体位和遮挡热图,采用体位鉴别器(P)来判断人体结构是否合理。 此外,我们的初步结果显示,正确的位置通常对应更高的置信热图。 因此,我们设计了另一个鉴别器来对预测的姿态热图的可信度做出决定。生成器被要求通过训练G和{P,C}在生成的对抗性的方式来“欺骗”姿态和置信鉴别器。 因此,通过引导G向接近ground-truth heatmaps的方向,满足人体的关节连接约束,在P网中隐含了人体结构。 已经学习的G期望能够对闭塞和混乱的背景有更好的鲁棒性,对不同身体部位的精确描述是必需的。

这项工作的主要贡献是三个方面:

我们设计了一种新颖的人体姿态估计网络框架,它考虑了人类关节连接性的几何约束。 通过将人体的先验知识整合在一起,可以大大减少因遮挡和杂乱的背景而引起的预测错误。即使网络失败了,网络的输出也更像是“人”的预测而不是“机器”的预测。

•根据我们的最佳知识,我们是第一个使用生成的Adversarial网络来利用受限的人姿分布来改善人的姿态估计。 我们还设计了一个堆叠的多任务网络,用于预测姿态热图和遮挡热图,以达到更好的效果。

•我们在两种公众人物姿态估计数据集上对我们的方法进行评估。我们的方法明显优于最先进的方法,并且能够持续产生比以前的方法更合理的预测。

相关工作

我们的工作与基于DCNN的基于人体姿态估计和生成对抗网络的DCNN方法的工作密切相关。

人类的姿态估计。 传统的人类姿态估计方法通常遵循树状结构图形模型的框架[9,3,28,35,21,27]。 随着Toshev et al.[31]的“DeepPose”的引入,基于深度网络的方法在这一领域变得更加流行。 这项工作更多的是与从图像中产生的姿势热图的方法有关[34,19,29,33,6,22,14,30]。 例如,Tompson等[30]通过在多个分辨率的银行中并行地运行图像,同时捕获各种规模的特征,生成了热图。 Tompson等[29]利用卷积网络的多个分支从图像金字塔中融合特征,并使用马尔可夫随机场(MRF)进行后处理。 在接下来的研究中,卷积式的Pose Machine[33]结合了卷积网络中身体各部分之间空间相关性的推论。沙漏网络[19]提出了一种最先进的体系结构,用于自底向上和自顶向下的推断和剩余块。我们的G网的结构也是一个完全卷积的网络与“conv-deconv”架构。 但是,我们的网络是在一个多任务的方式下设计的,具有两个任务的特性,这两个任务连接到第二个堆叠网络的特性。

生成对抗的网络。 在之前的离散标签[18]、文本[25]和图像中,生成的对抗性网络已经得到了广泛的研究。 传统模型处理[20]、[32]、未来帧预测[17]、未来状态预测[39]、产品照片生成[37]、风格转移[16]。人类的姿态估计可以被认为是一种从RGB图像到多通道热图的翻译。 自底向上和自顶向下的G网络可以很好地完成这一转换。 不同于以往的工作,判别器网络的目标不仅仅是区分假的和真实的,而且还将几何约束与模型结合起来。 这是与传统的GANs不同的假样本训练策略的原因,在接下来的章节中将会详细解释。

TheProposed Adversarial PoseNet

如图2所示,我们的Adversarial PoseNet模型由三个部分组成:pose generatornetwork G、pose discriminator network P和confidence discriminator C。 生成网络是一个自底向上和自顶向下的网络,在这里输入是RGB图像,在我们的情况下,输出是32个热图。 返回的热图中有一半是对16个姿态关键点的姿态估计,另一半则是对应的遮挡预测。 每个热图中的置信分数都是在[0,1]范围内,一个高斯模糊在ground truth position周围。

没有鉴别器,G就会被简单地它本身的向前和向后传播来更新(比较图2中的①线)。 这可能会产生低置信度,甚至不正确的位置姿势估计。 有必要利用鉴别器的力量来纠正这些较低的估计。因此,在框架中引入了两个鉴别器网络C和P。

图2:提出的结构感知卷积网络对人体姿态估计的概述。紫色的子网络是堆叠的多任务网络(G),用于生成姿态。 蓝色(P)和绿色(C)的网络被用来区分生成的姿势是否“真实”(作为身体形状的合理性),以及生成器是否对定位身体部位有很强的置信度。 在G上的虚线表示向后梯度来更新G。 1显示了G网的前后方向。2显示了通过从C网的梯度来更新G的过程。然后,G由P的梯度更新,如线3所示。

通过与C进行对抗性的训练来更新G后(与线2比较),产生了更有信心的结果。 此外,在训练了P和C的G后(与线3比较),人体的先验被隐式地利用,预测的置信也得到了相应的提高。

Multi-Task Generative Network

在本节中,我们将在我们的框架中引入生成网络G。 图3给出了G的体系结构。 关于身体部分是否被遮挡的知识清楚地提供了推断人体姿势几何信息的重要信息。 在此,为了有效地结合姿态估计和遮挡预测,我们提出了多任务生成网络去解决问题。

多任务生成网络的目标是学习一个函数g,它试图将一个图像x投射到相应的姿态热图y和遮挡热图z中,即g(x)= ^财政年度; z ^ g ^ y和z ^预测的热图。

此外,正如[33]所报道的,大的上下文区域对于定位身体部位很重要。 所以神经元的上下文区域,也就是它的感受野,应该是很大的。 为了实现这个目标,使用了一个“编码-解码器”架构。

此外,对于人类姿态估计的问题,局部证据对于识别人脸和手的特征是必不可少的。 同时,最终的姿态估计需要对完整的身体形象有一个连贯的理解。 为了在每一个尺度上捕获这些信息,在编码器和解码器中镜像层之间加入了跳连接。 受到[19]的启发,我们的网络也被层层叠加,为网络提供了一种重新评估整个图像的初始估计和特征的机制。在G网的每个模块中,都使用一个残块[12]来进行卷积运算。 给定原始图像x,堆叠多任务生成器网络的基本块可以表示为:

其中,Yn和Zn分别是n次叠加生成网络的输出激活张量,分别用于对姿态估计和闭塞预测。 X是图像特征张量,通过两个残块对原始图像进行预处理后得到。 假设基本块有N次叠加,则可将多任务生成网络定义为:

在每一个基本块,最后的热图输出y ^ n; z ^ n源于Yn和Zn 通过两个步长为1的1×1卷积没有填充。 具体地说,第一个卷积层减少了特征映射的数量,从特征映射的数量到身体各部分的数量。第二个卷积层作为一个线性分类器来获得最终预测的热图。

因此,给定一个训练集,其中M为训练图像的个数,我们的多任务生成网络的损失函数为:

Pose Discriminator

为了使网络的训练能够利用人体关节配置的先验知识,我们设计了姿态鉴别器P.鉴别器P的作用是从真姿态中区分假体式(姿势不满足人体关节的约束)。

我们需要局部图像区域来识别身体部位和大图像块(或整个图像)来理解身体各部分之间的关系,这是很直观的。然而,当某些部位严重咬合时,很难找到身体部位。 人类可以通过使用先验知识和观察身体部位周围的局部图像块和不同身体部位之间的关系来实现这一点。 受此启发,低水平和高水平的信息对于推断预测的姿势是否具有生物学上的合理性是很重要的。与以前的工作相比,我们使用编码-解码器架构来实现鉴别器P. Skip连接在并行层之间,用于合并本地和全局信息。

此外,即使生成网络无法预测特定图像的正确位置,预测的姿势也可能是可信的,只是针对不同的人体形状。 因此,仅仅使用姿势和遮挡特征,在训练一个精确的P时可能仍然会遇到困难。

这样的推理应该同时考虑原始图像。 遮挡信息也可用于推断姿态合理性。 我们使用由G网络生成的带有位姿和遮挡图的输入RGB图像作为P的输入,以预测一个姿态是否合理对一个特定的图像。 P的网络结构如图4所示。 为了实现这个目标,在我们的框架中为P设置了条件方式。 当GANs学习数据生成模型时,条件GANs (cGANs)学习一个条件生成模型[11]。 有条件的对抗性P网络的目标表示如下:

其中,pfake是ground truth posediscriminator的标签。 在传统的GAN中,pfake设置为0。 这里的pfake的选择将在第2.4节中详细讨论。

. ConfidenceDiscriminator

通过之前的方法对ground truth热图和预测热图之间的差异的观察,我们发现预测的热图往往不是高斯分布的,由于遮挡和身体重叠。回顾人类视觉的机制,即使身体部分被遮挡,我们仍然可以自信地定位身体部位。 这主要是因为我们已经获得了人体关节的几何形状。 为此,我们设计了第二种辅助鉴别器,称为置信鉴别器C。 从低可信度预测中判别高可信度预测。 C的输入是姿态和遮挡热图。传统的对抗性C网络的目标可以表示为:

其中cfake是ground truthconfidence label。 在传统的GAN中,cfake设置为0。 cfake的选择也将在第2.4节中讨论。

Training of the AdversarialNetworks

在这一节中,我们描述了鉴别器的详细输入和输出,然后详细解释了P和C如何有助于精确地预测结构约束。 正如第2.2节和第2.3节所提到的,先前的姿态估计网络在定位遮挡身体部分时通常没有高置信度,因为忽略了局部信息。然而,如果G网络能够通过像人类在这种情况下所做出的关于遮挡的推断这样来学习,那么它就应该在定位这些身体部位的过程中获得高的置信度。

如果G产生低置信度的热图,C会将结果归为“假”。 当G被优化以欺骗C,使假的变成真实的,这个过程将帮助G产生高置信度热图,即使是有遮挡。 输出是置信分数c,它实际上对应于网络是否对定位身体部件有信心。

在训练C,真正的热图是贴上了一个16×1(16是身体部分的数量)单位向量Creal标签。 假(预测)热图的可信度应该很高,因为它接近ground truth,反之亦然。 所以假(预测)的热图被一个16×1向量cfake作为标签, cfake的数值是对应的置信分数。

其中“是阈值参数,i是第i个身体部分”。 C的输出值范围为[0; 1]

接下来,我们将展示如何将人体的几何信息嵌入到拟议的P网络中。 我们观察到,当人体的一部分被遮挡时,对未遮挡部分的预测通常不会受到影响。这可能是因为DCNN有很强的学习局部特征的能力。 在之前的GANs图像翻译作品中,通过对假样本的标记为1和0的真实样本来学习判别网络。 对于人类姿态估计的问题,我们发现通过简单地将0或1设置为样本的groundtruth,网络很难收敛。 相反,我们设计了一种新的姿态估计策略。

真实样本的ground truth Preal是一个16 x1单位向量。对于假的样本,如果一个预测的身体部分远离ground truth的真实位置,那么这个姿势在这个图像中的身体结构显然是难以置信的。因此,ground truth Pfake是:

δ是阈值参数和di是预测和ground truth的第i个身体部位的位置的归一化距离。 P中的输出值的范围也是[0; 1]。 为了欺骗P, G将被训练到产生热图的方向,以满足人体的关节约束。以前的条件GANs方法发现,将GAN目标与传统的损失(如l2距离)混合是有益的。对于我们的任务,很明显,我们也需要在训练过程中对G进行监督,groundtruth是人类的姿势。 因此,鉴别器仍然起着原来的作用,但是发生器不仅会欺骗鉴别器,而且还会像在Eq.(3)中一样,在“2感觉”中近似地groundtruth输出。因此,最终的目标函数如下。

在实验中,为了使不同组件的最终目标函数有相同的规模,超参数α和β1 = 220和1 = 180,分别。 算法1将整个训练过程演示为伪代码。

阅读更多
文章标签: GAN  姿态检测
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭
关闭