论文笔记——SCIO

备注:代码尚未开源

摘要:

        我们观察到,由于不同身体部位的生物约束,人类姿态表现出很强的群体结构相关性和关键点之间的空间耦合。这种群体结构相关性可以提高人体姿态估计的准确性和鲁棒性。在这项工作中,我们开发了一个自约束的预测-验证网络来表征和学习在训练过程中关键点之间的结构相关性。在推理(测试验证)阶段,来自验证网络的反馈信息允许我们对姿态预测进行进一步的优化,这显著提高了人体姿态估计的性能。具体来说,我们根据人体的生物结构将这些关键点划分为若干组。在每一组中,关键点被进一步划分为两个子集,高置信度基础关键点和低置信度终端关键点。我们开发了一个自约束预测验证网络来在这些关键点子集之间进行正向和反向预测。

        在姿态估计和一般预测任务中的一个基本挑战是,我们没有机制来验证所获得的姿态估计或预测结果是否准确,因为ground truth,真实标注是不可用的。一旦学习成功,验证网络将作为前向姿态预测的精度验证模块。在推理阶段,可以以高置信关键点上的自约束损失作为目标函数,指导低置信关键点的姿态估计结果的局部优化。

一、前言

 

如图1所示,这项工作的动机是以下两个重要的观察结果:

(1) 人类的姿势,虽然由于人类的自由风格和灵活的运动而表现出很大的变化,但却受到身体的生物结构的限制。整个身体由上肢、下肢等多个部分组成。每个主体部分对应于一组子关键点。我们观察到,不同身体部位之间的关键点相关性仍然很低,因为不同的身体部位,如左臂和右臂,可以以完全不同的风格和向不同的方向移动。然而,在同一个身体部位或同一个结构组内,关键点在空间上更约束。这意味着,通过探索这种独特的结构相关性,关键点可以潜在地相互预测。基于这一观察结果,在这项工作中,我们提出将身体部分划分为一组结构组,并执行群体级结构学习和关键点预测细化。

(2) 在每一组关键点中,位于身体部位尖端位置的终端关键点,如踝关节和手腕关键点,其估计精度往往较低。这是因为他们有很大的运动自由度,更容易被其他物体遮挡。

图2显示了所有关键点的平均预测置信度(从热图中获得),黄色的点和条形图表示终端关键点的位置和估计置信度,例如,手腕或脚踝关键点。我们可以看到,终端关键点的平均估计置信度远低于其他关键点

基于上述两项观察结果,我们提出将身体关键点按其生物部分划分为6个结构组,每个结构组进一步划分为两个子集:终端关键点和基本关键点(其余关键点)。我们开发了一个自约束预测验证网络来学习每个结构群内这两个子集之间的结构相关性。具体来说,我们学习了两个紧密耦合的网络,一个是预测网络Φ,从基点对终端关键点进行前向预测,另一个是对终端关键点进行向后预测的验证网络Γ。该预测-验证网络旨在表征每个结构组内的关键点之间的结构相关性。它们是通过自我约束损失共同学习的。一旦成功学习,验证网络Γ将被用作性能评估模块,基于每个结构组内的局部搜索和细化,优化低置信度终端关键点的预测。 

二、SCIO

2.1 模型总体结构

我们的任务是从I图片中精确地定位K个关键点X = {X1,X2,...,XK}。基于热图的方法将这个问题转化为估计大小为W‘×H’的K个热图{H1,H2,...,HK}。给定一个热图,可以使用不同的分组或寻峰方法来确定关键点的位置。在这项工作中,地面真实ground-truth热图用¯H1,¯H2,...,¯HK表示。

 

2.2 Self-Constrained Inference Optimization on Structural Groups(结构群的自约束推理优化)

        图3显示了我们提出的SCIO姿态估计方法的总体框架。我们首先将检测到的人体关键点分为6个结构组,对应不同的身体部位,包括下肢和上肢,头部对应两组

如图4所示。每个组包含四个关键点。我们观察到,这四个关键点组成的结构组是人体姿势和身体运动的基本单位。它们受到人体生物结构的限制。结构群体之间存在着显著的自由度和差异。例如,左臂和右臂可以以完全不同的方式移动和摆姿势。

同时,在每一组中,关键点集相互约束,它们之间具有很强的结构相关性

        如在第1节中所讨论的,我们将这6个结构组进一步划分为基本关键点和终端关键点。基本关键点靠近身体躯干,而终端关键点在相应身体部位的末端或尖端位置。从图2可以看出,在姿态估计过程中,终端关键点的估计置信度远低于基本关键点。在这项工作中,我们用以下方法来表示每一组内的这4个关键点

其中,XD是终端关键点,其余三个{XA,XB,XC }是躯干附近的基本关键点。对应的热图用H = {HA、HB、HC | HD}表示。为了表征每个结构组H内的结构相关性,我们提出开发一个自约束的预测验证网络。如图3所示,预测网络Φ以特征图f为视觉上下文信息(视觉背景),从基本关键点{HA,HA,HC }预测终端关键点HD的热图:

我们观察到特征图f为关键点估计提供了重要的视觉上下文信息验证网络Γ与预测网络具有相同的结构。验证网络对其余三个关键点进行反向预测出HA: 

通过将预测网络的预测输出ˆHD作为输入,将预测和验证网络耦合在一起,我们得到以下预测回路:

 这将引出以下自我约束的损失:

该预测循环采用前后预测验证网络学习基本关键点和终端关键点之间的内部结构相关性学习过程是由自约束损失所引导的如果成功地学习了内部结构相关性,则由正向和后向预测回路产生的自约束损失LsA应该较小。这一步被称为自约束学习。 

一旦成功学习,可以使用验证网络Γ来验证预测关键点位置ˆXD是否准确。(其实就是去通过损失比较使用H(ˆXD)预测的A热图关键点,与真实A关键点位置是否一致,如果两者非常接近的话损失就会非常小,通过这个损失去调整D关键点的位置

在此模型中,自约束损失作为一个依靠局部搜索来优化预测ˆXD的目标函数,可以表示为:

其中,H(ˆXD)表示使用高斯核函数从关键点ˆXD生成的热图。这为我们根据测试样本的具体统计量迭代细化调整预测结果提供了一个有效的机制这种自适应预测和优化在传统的网络预测中是没有的,它是纯正向预测,没有任何反馈或自适应

这种基于反馈的自适应预测将使测试样本具有更好的泛化能力。这一步被称为自约束优化。在下面的章节中,我们将介绍更多关于自约束学习(SCL)和自约束优化(SCO)方法的细节。 

the Gaussian kernel:

2.3 Self-Constrained Learning of Structural Groups (结构群的自约束学习)

        如图3所示,预测和验证网络的输入,即{HA、HB、HC }和{HB、HC、HD},均是基础姿态估计网络生成的热图。在这项工作中,我们使用HRNet [27]作为我们的基准模型,在此基础上实现了我们提出的SCIO方法。

        我们观察到,关键点位置周围的视觉上下文信息为细化关键点的位置提供了重要的视觉线索。例如,膝关节关键点的正确位置应该是在膝关节图像区域的中心。基于此,我们也将骨干网络生成的特征图f作为输入传递给预测和验证网络

        在我们提出的自约束学习方案中,预测和验证网络是联合训练的。具体如图3所示,顶部分支显示了预测网络的训练过程。它的输入包括热图{HA、HB、HC }和视觉特征图f。预测网络的输出为关键点XD的预测热图,用ˆHD表示。在训练阶段,将该预测与地面真实¯HD进行比较,形成预测损失LOP

预测的热图ˆHD,结合热图HB和HC以及视觉特征图f,被传递到验证网络Γ作为输入。Γ的输出将是关键点XA的预测热图,用ˆHA表示。然后,我们将其与地面真实热图¯HA进行比较,并定义了以下预测网络的自约束损失 :

将这两个损失组合为来训练预测网络Φ。

        同样的,对于验证网络,输入的是热图{HB、HC、HD}和视觉特征图f。它预测了关键点XA的热图ˆHA。然后,与{HB、HC }和f相结合,形成预测热图ˆHD的预测网络Φ的输入。因此,验证网络的总体损失函数为 :

预测和验证网络以迭代的方式进行联合训练。具体来说,在预测网络的训练阶段,验证网络是固定的,并用于计算预测网络的自约束损失。同样,在验证网络的训练时期,预测网络是固定的,并用于计算验证网络的自约束损失。

2.4 Self-Constrained Inference Optimization of Low-Confidence Keypoints(低置信度关键点的自约束推理优化)

如在第1节中所讨论的,姿态估计的主要挑战之一是提高困难关键点的精度,例如,这些终端关键点在现有的网络预测方法中,推理过程是纯向前的。从训练集学习到的知识直接应用于测试集。由于没有地面真相,因此没有有效的机制来验证预测结果是否准确。由于没有反馈过程基于实际测试样本来调整预测结果,因此经常存在泛化问题。

所提出的自约束推理优化方法旨在解决上述问题。验证网络Γ一旦被成功地学习到,就可以作为一个反馈模块来评估预测结果的准确性。这是通过将低置信度关键点的预测结果ˆHD映射回高置信度关键点ˆHA来实现的(其实就是通过预测验证网络调整预测热图关键点的位置,将原先可能是低置信度(概率低)但却是真实关键点位置的关键点调整为高置信度)。

利用自约束损失作为目标函数,我们可以对预测结果ˆXD进行局部搜索或细化,以使目标函数最小化,如公式(8)所示。这里,基本思想是:如果预测ˆXD成为准确在本地搜索,然后,使用它作为输入,验证网络应该能够准确预测高信心关键点ˆHA,这意味着自我约束损失||HA−ˆHA||2高信心关键点XA应该是小的。

基于此,我们提出对低置信度关键点进行局部搜索和细化。具体地说,我们在预测结果ˆXD上添加一个小的扰动∆D,并搜索它的小邻域以最小化自约束损失:

在这里,δ控制关键点的搜索范围和方向,方向将随损失而动态调整。H(ˆXD+∆D)表示使用高斯核从关键点位置ˆXD+∆D生成的热图。

三、实验

 

 

 

 

 

 

四、总结

这项工作观察到人类姿态在关键点组内表现出很强的结构相关性,这可以探索以提高其估计的准确性和鲁棒性。开发了一个自约束的预测验证网络来学习这种相干的空间结构,并在推理阶段对姿态估计结果进行局部细化。并且将每个关键点组划分为两个子集,即基本关键点和终端关键点,并开发了一个自约束预测验证网络,在它们之间进行正向和反向预测。这种预测-验证网络设计能够捕捉到关键点之间的局部结构相关性。一旦学习成功,使用验证网络作为反馈模块,以高置信关键点上的自约束损失为目标函数,指导低置信关键点的姿态估计结果的局部优化。

与现有的循环一致性方法和互反学习方法相比,我们的方法具有以下独特的新颖性。首先,它解决了预测中的一个重要问题:既然我们没有真相,我们如何知道预测是否准确。它建立了对高置信度关键点的自匹配约束,并利用成功学习到的验证网络来验证对低置信度关键点的细化预测是否准确。与现有的只能进行正向推理的预测方法不同,我们的方法能够在推理阶段对预测结果进行进一步的优化,这可以显著提高该方法的预测精度和泛化能力。 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值