Bibliography
- Mehta, D., Sotnychenko, O., Mueller, F., Xu, W., Sridhar, S., Pons-Moll, G., & Theobalt, C. (2018). Single-Shot Multi-Person 3D Pose Estimation From Monocular RGB. International Conference on 3D Vision (3DV). Available at arXiv:1712.03453 ¹.
摘要
我们提出了一种新的单次方法,用于从单目RGB摄像头在一般场景下进行多人3D姿态估计。我们的方法使用了一种新颖的抗遮挡姿态图(ORPM),即使在被场景中其他人或物体部分严重遮挡的情况下,也能进行完整的人体姿态推断。ORPM输出固定数量的图,编码场景中所有人的3D关节位置。通过身体部位关联 [8],我们可以在不明确预测边界框的情况下推断出任意人数的3D姿态。为了训练我们的方法,我们引入了MuCo-3DHP,这是第一个展示复杂多人互动和遮挡的真实图像的大规模训练数据集。我们通过合成单个人物的图像(利用多视角表现捕捉的真实数据)来合成大量的多人图像语料库。我们在新的具有挑战性的3D标注多人测试集MuPoTS-3D上评估了我们的方法,并在此数据集上达到了最先进的性能。为了进一步推动多人3D姿态估计的研究,我们将公开发布我们的新数据集及相关代码供研究使用。
1. 引言
从单目RGB输入中进行单人姿态估计(包括2D和3D)是一个具有挑战性且广泛研究的问题 [4, 3, 33, 34, 7, 11, 28, 37]。它在活动识别和图形内容创作等领域有许多应用。尽管已经存在用于2D多人人体姿态估计的方法 [43, 17, 8, 37],大多数3D姿态估计方法仍然局限于单个无遮挡的主体。自然的人类活动通常在多人的复杂场景中进行,因此不仅表现出身体的自我遮挡,还会有严重的人际遮挡或被物体遮挡。
这使得从单目RGB输入中推断出所有主体的3D姿态这一欠约束的问题更加困难,现有的单人3D姿态估计方法在此情况下常常失败。
最近的工作通过将这一更为普遍的3D多人姿态估计问题分解为多个单人实例来解决 [31, 49],这种方法通常在分解过程中存在显著的冗余 [49]。单人预测通过后处理来过滤、优化和融合预测结果以得到一致的估计。然而,自下而上的多人联合推理仍然基本未解决,多人3D姿态估计也缺乏合适的性能基准。
我们提出了一种新的基于单次卷积神经网络(CNN)的方法,从单目输入中估计一般场景下的多人3D姿态。我们的方法称为“单次”方法,因为它在一个前向传递中联合推理场景中的所有人,而不需要通过独立的算法显式生成边界框作为预处理步骤 [49, 40]。后者在强遮挡的情况下可能会失败,并且在密集的多人场景中计算代价较高。我们完全卷积的方法使用我们新提出的抗遮挡姿态图(ORPM)公式来联合推断2D和3D关节位置。ORPM通过在编码中加入冗余,并使用固定数量的输出(不论场景中的人数)来实现多人3D姿态估计,即使在强(自我)遮挡的情况下也能完成。我们的后续分层读取策略从一个基础姿态估计开始,并能够根据可见的关节进行细化估计,从而得到鲁棒的3D姿态结果。
为了训练我们的CNN,我们引入了一个新的多人3D姿态数据集MuCo-3DHP。虽然已有多个带有3D关节注释的单人数据集,但尚无包含大规模真人互动视频记录、具有多样人物和背景的注释多人数据集。Joo等人 [24] 通过多摄像头演播室设置在这方面取得了重要进展,但背景多样性仍然有限。
一些早期工作通过使用动作捕捉数据集中的3D姿态来增强2D姿态数据 [49],或者通过寻找多视角录制的工作室图像中的2D部位注释的一致性来创建3D注释的多人图像 [53]。为了创建在人物外观、摄像机视角、遮挡和背景上具有更大多样性的数据,我们将MPI-INF-3DHP单人数据集 [33] 转换为首个展示真实人物在复杂场景中的多人数据集。MuCo-3DHP 通过将带有多视角无标记动作捕捉的真实3D姿态的单人图像进行合成而创建。人物外观的背景增强和具有遮挡感知的前景增强进一步增加了数据的多样性。为了验证我们的方法在真实场景中的通用性,并且由于目前只有少量注释的多人测试集 [12] 展示了超过两个人的情况,我们提供了一个新的多人3D测试集MuPoTS-3D。该测试集包含室内和室外场景,具有挑战性的遮挡和互动,多样的背景,超过两个人,并且通过商业无标记动作捕捉获得了真实数据。所有数据集将公开发布。总结如下,我们的贡献包括:
- 基于CNN的单次多人姿态估计方法,基于一种新颖的多人3D姿态图公式来联合预测场景中所有人的2D和3D关节位置。我们的方法针对物体或其他人遮挡的场景进行了优化。
- 第一个包含复杂人际遮挡、动作和背景多样性的真实人物图像的多人数据集,并且带有3D真实标注。
- 一个真实的野外测试集,用于评估多人3D姿态估计方法,包含多样的场景、具有挑战性的多人互动、遮挡和动作。
我们的方法在单人方法完全失败的具有挑战性的多人场景中达到了最先进的性能。尽管设计用于更加困难的多人任务,它在单人测试数据上也表现得极具竞争力。
2. 相关工作
我们专注于最直接相关的工作,即从单目RGB输入中估计多人的2D姿态或单人的3D姿态。[50] 提供了更全面的综述。
多人2D姿态估计
一种常见的多人2D姿态估计方法是首先检测单个人物,然后进行2D姿态估计 [44, 13, 55, 19, 40]。不幸的是,当检测器失败时(这是多人与强遮挡场景中常见的情况),这些方法也会失败。因此,一些研究首先通过基于CNN的检测器定位每个人的关节,然后在后处理步骤中找到关节与人物之间的正确关联 [43, 16, 36, 8]。
单人3D姿态估计
现有的单目单人3D姿态方法在标准数据集上表现良好 [18, 51, 59, 41, 28, 27]。然而,由于许多方法训练了一个针对3D姿态的判别预测器 [5],它们通常无法很好地泛化到具有多种姿态、外观、背景和遮挡的自然场景。这是因为大多数3D数据集仅限于背景和外观有限的室内设置。随着带有2D注释的大型真实世界图像数据集的出现,2D姿态估计在实际环境中变得非常准确。然而,为图像添加3D姿态注释更为困难,许多最近的研究集中在利用2D图像数据集进行3D人体姿态估计或多视角设置 [24]。对这些2D图像数据集的额外注释允许一定程度的3D推理,例如通过身体关节深度排序约束 [42] 或密集形状对应 [14]。一些研究将问题分为两步:首先估计2D关节,然后将其提升为3D [58, 54, 9, 66, 35, 69, 1, 52, 20, 32, 6, 26, 38, 57, 2],例如通过数据库匹配、神经网络回归或拟合SMPL人体模型 [30]。一些研究将SMPL集成到CNN中,以端到端的方式利用3D和2D注释 [39, 25, 42]。
其他研究利用了2D姿态估计CNN所学习的特征来进行3D姿态估计。例如,[60] 学习合并来自2D和3D关节预测网络的特征。另一种方法是训练一个网络,针对不同数据源分别使用2D和3D损失 [46, 68, 56, 65, 31]。一些方法通过多阶段的置信度图联合推理2D和3D姿态 [62]。这种方法的优势在于可以端到端地进行训练。一种更简单但非常有效的方法是将为2D姿态估计训练的网络优化为3D姿态估计 [34, 33]。依赖于2D关节检测或边界框的方法的一个主要局限性在于,它们在出现身体遮挡或错误的2D检测时容易失败,这在多人场景中很常见。相比之下,我们的方法对遮挡更具鲁棒性,因为即使在严重遮挡的情况下,也能获得一个基础的3D身体姿态估计。[34] 表明,当感受野围绕感兴趣的关节中心时,3D关节预测效果最好。我们基于这一见解,在2D关节检测可用的情况下细化基础身体姿态。
多人3D姿态估计
据我们所知,只有 [49] 研究了从单张图像中进行多人3D姿态估计的问题。他们首先使用 [47] 识别出可能包含人物的边界框。边界框不是直接进行姿态回归,而是被分类为与 [45] 类似的一组K个姿态。这些姿态通过分类器进行评分,并通过回归器进行优化。该方法隐式地使用边界框推理,并为每个主体生成多个需要累积和融合的提议。然而,该方法在大量人际遮挡下的性能尚不明确。相比之下,我们的方法在单次预测中生成多人2D关节位置和3D姿态图,即使在严重的人际遮挡下也可以推断3D姿态。
3D姿态数据集
现有的姿态数据集要么是单人3D [18, 51, 63, 64, 33],要么是多人但仅有2D姿态注释 [3, 29]。在两个例外中,MARCOnI数据集 [12] 包含5个序列,但仅同时包含2个人,并且没有近距离互动。另一个是Panoptic数据集 [24],其捕捉体积、姿态和背景多样性有限。有一些研究从动作捕捉数据生成合成图像 [48, 10],然而生成的图像并不真实。我们选择利用MPI-INF-3DHP [33] 中可用的人物分割掩码,通过合成生成带有注释的真实多人3D姿态图像。此外,我们捕捉了一个3D基准数据集,其中包含多个人的近距离互动,并通过基于视频的多摄像头动作捕捉系统进行了注释。
3. 多人数据集
通过将野外的多人2D姿态数据 [3, 29] 与多视角的多人动作捕捉数据相结合来生成3D注释数据,是对之前(单人)方法 [33] 的直接扩展。然而,即使是对于商业系统,在强遮挡和互动下进行多人3D动作捕捉也是非常具有挑战性的,通常需要手动姿态校正来约束3D精度。因此,我们仅使用纯多视角无标记动作捕捉来创建MuPoTS-3D的20个序列,这是首个表现丰富的野外多人3D姿态基准。对于更大规模的训练集MuCo-3DHP,我们采用了一种新的合成与增强方案,该方案利用MPI-INF-3DHP [33] 中真实人物的单人图像数据,在用户控制下合成任意数量的多人互动图像,并附有3D姿态注释。
3.1. MuCo-3DHP:基于合成的训练集
MPI-INF-3DHP [33] 单人3D姿态数据集为8个主体的真实图像提供了基于无标记动作捕捉的注释,每个主体有两套服装,通过14台不同高度的摄像机进行捕捉。我们基于这些人物分割掩码创建每个摄像机的1到4个主体的合成图像,帧从每个摄像机下的8 × 2序列中随机选择。由于我们拥有每个视频主体在相同空间中的3D骨架姿态的真实数据,因此我们可以以3D感知的方式进行合成,从而实现主体的正确深度排序和重叠。我们将这个合成的训练集称为Multiperson Composited 3D Human Pose数据集(参见图2中的示例)。合成过程生成了覆盖模拟人物重叠和活动场景范围的合理图像。此外,用户可以控制所需的姿态和遮挡分布,并利用MPI-INF-3DHP提供的掩码进行前景/背景增强(详细信息参见补充文件)。即使合成的合成图像可能无法完全模拟所有人际互动的细微差别,我们发现基于该数据训练的方法在测试集中对真实场景具有良好的泛化能力。
3.2. MuPoTS-3D:多样化的多人3D测试集
我们还展示了一个新的拍摄(非合成)多人测试集,包括20个具有真实3D姿态数据的普通现实场景,最多包含三个人物的真实3D姿态数据,这些数据是通过多视角无标记动作捕捉系统 [61] 获得的。此外,每个关节都有遮挡注释。该测试集涵盖了5个室内和15个室外环境,包括树木、办公楼、道路、行人、车辆及其他静态和移动的干扰物在背景中。部分室外镜头还包含具有挑战性的元素,如剧烈的光照变化和镜头光晕。室内序列使用2048 × 2048像素的视频,帧率为30fps;室外序列使用1920 × 1080像素的GoPro视频,帧率为60fps。该测试集包含超过8000帧,分布在20个序列中,有8个主体,展现了多种服装风格、姿态、互动和活动。值得注意的是,测试序列与训练数据不相似,并包括真实的互动场景。我们将这个新的测试集称为3D中的多人姿态测试集(MuPoTS-3D)。
评估指标
我们使用了 [33] 中提出的鲁棒3DPCK评估指标。如果预测的关节位于以真实关节位置为中心的15厘米球体内,则认为预测是正确的,并对图5中标记为绿色的14个关节的最小公共集合进行评估。我们报告每个序列的3DPCK数值,并对可用的GT参考主体进行平均,此外还报告了遮挡和未遮挡关节的性能细分。
3DPCK 相对于 MPJPE [18] 的相对鲁棒性也有助于抵消包括我们在内的所有非合成注释中出现的抖动效应。为了完整起见,我们还报告了与注释主体匹配的预测的 MPJPE 误差。