微软开源3D人体姿态估计的交叉视图融合算法,提高SOTA精度

今天分享一下微软亚洲研究院新的开源3D姿态估计的一篇论文:用于3D人体姿势估计的Cross View Fusion,它大大减少了3D姿态估计的误差。

在H36M数据集上,MPJPE(关节点误差平均值)从之前的最佳结果从52mm下降到26mm,这是一个显着的改进,相信该算法将成为该领域的重要参考。

简介

由于引入了深度神经网络, D姿势估计取得了重大进展。

已经致力于估计相对 3D从单眼图像构成。估计的姿势以骨盆关节为中心,因此不知道它们在环境中的绝对位置(世界坐标系)。

在本文中,我们解决估计绝对的问题3D构成在世界坐标来自多个摄像机的系统,大多数作品遵循的第一估计管线2d的姿势,然后恢复3D从他们的姿势。然而,后一步骤通常取决于第一步的性能,不幸的是,在实践中通常具有大的误差,尤其是当图像中出现遮挡或运动模糊时。这就提出了最后一大挑战3 d估计。

在另一方面,使用画报结构模型(PSM)为3D姿态估计可以减轻不准确的影响2个通过考虑它们的空间依赖性d关节。它通过N × N × N网格离散根关节周围的空间,并将每个关节分配给N 3个区间(假设)中的一个。它共同最小化所估计之间的投影误差3 d姿势和2D姿势,以及关节及其先前结构的空间配置的差异。然而,空间离散化导致大的量化误差。例如,当人体周围的空间大小为2000毫米且N为32时,量化误差大至30毫米。我们可以通过增加N来减少误差,但是推理成本也会在O (N 6)处增加,这通常是难以处理的。

我们的工作旨在解决上述挑战。首先,我们获得更精确的2 d构成通过从使用基于CNN方法的多个视图共同估计它们。它完美解决查询不同视图之间的对应位置的挑战2 d构成热图的融合。我们通过融合神经网络实现这个想法,如图1所示。融合网络可以与任何基于CNN被集成2 d构成的端至端的方式估计器没有中间监督。

第二,我们提出递归画报结构模型(RPSM),以回收3D从估计多视图姿态2 D姿势热图。从PSM直接离散化的空间成大量仓,以便控制量化误差不同,RPSM 递归离散化围绕每个关节的位置的空间(在先前的迭代估计的)转换成更细粒度的使用网格小箱数。其结果,所估计的3 d姿态是精制步步。由于每个步骤中的N通常较小,因此单次迭代的推理速度非常快。在我们的实验中,RPSM将误差降低了至少50 % 与PSM相比,推理时间几乎没有增加。

为2 d对本H36M数据集估计,在所有关节的平均检测率提高了从89 %至96 %。对于最具挑战性的“腕关节”,这种改善意义重大。对于3 d姿态估计,改变PSM到RPSM显着降低从平均误差77国毫米至26毫米。即使与平均误差为52 mm 的最先进方法相比,我们的方法也将误差减半。我们进一步评估我们在Total Capture数据集上的方法验证其泛化能力。它仍然优于最先进的。

图1:交叉视图融合2 d姿态估计。首先将图像馈入CNN以获得初始热图。然后,每个视图的热图通过融合层与来自其他视图的热图融合。整个网络是端到端学习的。

我们首先回顾上多视角的相关工作3D姿态估计,并讨论他们从我们的工作有什么不同。然后我们讨论一些关于特征融合的技术。

多视图3 D姿态估计

许多方法提出了用于多视图姿态估计。它们首先定义表示为简单基元的主体模型,然后优化模型参数以将主体模型的投影与图像特征对齐。这些方法在使用的图像特征和优化算法方面不同。

我们集中在其上广泛用于物体检测的画报结构模型(PSM)到对象部件之间的空间相关性进行建模。这种技术也被用于2D 和3D姿态估计所在部位是人体关节或肢体。第一估计2D与PSM多视图设置姿势,然后获得3D提出通过直接三角测量。后来布雷纽斯和Pavlakos延伸到PSM多视图3D人体姿势估计。例如,在他们首先估计2D独立地构成为每个视图,然后恢复3D姿态使用PSM。我们的工作与其它不同之处在于我们将PSM扩展到递归版本RPSM,它可以逐步有效地细化3D姿态估计。另外,他们不像我们那样执行交叉视图特征融合。

多图像特征融合

融合来自不同来源的特征是计算机视觉文献中的常见做法。例如,根据光流将相邻帧(在视频序列中)的特征翘曲到当前帧,以便鲁棒地检测物体。Ding提出聚合多尺度特征,这些特征对于大小物体都实现了更好的分割精度。有人提出来估计2D构成通过探索多视点图像之间的几何关系。它从我们的工作不同,它不融合其他意见的功能,以获得更好的2D热图。相反,他们使用的多视点3D几何关系来选择“不完美”热图的联合位置,还有多视图一致性被用作训练姿势估计网络的监督源。据我们所知,没有以前的工作,融合多视图的功能,以获得更好的2D造成热图,因为它是一个具有挑战性的任务找到跨越这是我们的这个重要贡献一个不同的观点相应的功能工作。

图2:对极几何:图像点Y u P反向投影到由相机C u和Y u P定义的3D光线。该线在相机C v中像我一样成像。投射到Y u P的3D点P必须位于此光线上,因此摄像机C v中的P图像必须位于I上。

图3:一个通道的双视图特征融合。顶部网格表示视图A的特征图。视图A中的每个位置通过权重矩阵连接到视图B中的所有像素。对于极线上的位置(黄色细胞中的数字),权重大多为正。视图A中的不同位置具有不同的权重,因为它们对应于不同的极线。

用于2 D姿态估计的3个交叉视图融合

RPSM用于多视图3 D姿态估计

离散状态空间

我们首先三角测量3使用其根关节的位置d 2点中的所有视图检测d的位置。则的状态空间3 d姿态被约束为一个内3在根关节中心的d包围体。边长小号的体积被设定为2000年毫米。体积通过N × N × N网格G离散化。所有身体关节共享相同的状态空间G,其由N 3个离散位置(箱)组成。

一元电位

每一个身体联合假设,在网格中的仓ģ,是由它的定义3在世界系统d位置坐标。我们使用相机参数将其投影到所有相机视图的像素坐标系,并从F获得相应的关节置信度。我们将所有相机视图的平均置信度计算为假设的一元可能性。

成对电位

离线,对于边集E中的每对关节(J m,J n),我们计算训练集上的平均距离~ l m ,n作为肢体长度先验。在推理期间,成对电位定义为:

其中l m ,n是J m和J n之间的距离。成对术语倾向于3 d构成具有合理肢长度。在我们的实验中,ε设定为150毫米。

图4:我们实验中使用的人体图形模型。有17个变量和16个边

递归图形结构模型

PSM模型遭受由空间离散化引起的大量化误差。例如,当我们像之前的工作一样设置N = 32时,量化误差大到30毫米(s 32 × 2其中s = 2000是边界体积的边长。增加N可以减少量化误差,但计算时间很快变得难以处理。例如,如果N = 64,则推理速度将为 64=(6432)6。

我们建议通过多阶段过程递归细化关节位置,并在每个阶段使用小N,而不是在一次迭代中使用大N. 在第一阶段( t=0),我们离散化3使用粗网格的三角根关节周围d边界体积空间(Ñ = 16),并获得初始3D姿态估计大号= ( L1,⋯,LM)使用PSM方法。

FO以下阶段(吨≥ 1),对于每个关节Ĵ 我,我们离散围绕其当前位置的空间大号我成 2×2×2 grid G(i)。这里的空间离散化与PSM的区别在于双重。首先,不同的关节有自己的网格,但在PSM中,所有关节共享相同的网格。有关该想法的说明,请参见图5。其次,边界体积的边长随着迭代而减小:s t = s t - 1 N.。这是网格与前一阶段相比变得更细粒度的主要原因。

我们不是独立地改进每个关节,而是考虑到它们的空间关系,同时细化所有关节。回想一下,我们知道网格的中心位置,大小和网箱数量。因此,我们可以计算网格中每个bin的位置,我们可以用它来计算一元和成对电位。值得注意的是,成对电位应该在运行中计算,因为它取决于先前估计的位置。但是,因为我们将N设置为较小的数字(在我们的实验中为两个),所以这种计算很快。

图5:递归图像结构模型的图示。假设我们在前一次迭代中分别估计了两个关节J m和J n的粗略位置L m和L n。然后我们将两个关节周围的空间划分为更细粒度的网格,并估计更精确的位置

实验结果

作者在H36M与MPII数据集上进行了实验

实验中不同误差级别的图像关键点结果可视化实例:

论文地址:

https://arxiv.org/pdf/1909.01203.pdf

论文源码关注微信公众号:“图像算法”或者微信搜索账号imalg_cn关注公众号

  • 2
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值