CVPR 2019 Self-Supervised Learning of 3D Human Pose using Multi-view Geometry 论文阅读

最新推荐文章于 2024-07-01 17:30:54 发布

DZzz丶

最新推荐文章于 2024-07-01 17:30:54 发布

阅读量3.5k

点赞数 4

分类专栏：论文阅读

本文链接：https://blog.csdn.net/qq_38682032/article/details/88600860

版权

本文介绍了EpipolarPose，一种无需3D真值数据或相机参数的自我监督学习方法，用于3D人体姿态估计。通过对极几何，该方法从多视图图像中学习2D和3D姿态，从而训练3D姿态估计器。在Human3.6M和MPI-INF-3DHP数据集上，EpipolarPose在弱/自监督方法中达到最佳性能。此外，文章提出了一种新的评估指标——Pose Structure Score (PSS)，强调姿势的结构合理性。

摘要由CSDN通过智能技术生成

Self-Supervised Learning of 3D Human Pose using Multi-view Geometry

Kocabas M, Karagoz S, Akbas E. Self-Supervised Learning of 3D Human Pose using Multi-view Geometry[J]. arXiv preprint arXiv:1903.02330, 2019.

Abstract

训练精确的3D人体姿势估计器需要大量的3D真值数据，这些数据的收集成本很高。由于缺乏3D数据，已经提出了各种弱或自监督的姿势估计方法。然而，除了2D真值姿态数据之外，这些方法还需要各种形式的附加监督（例如，不成对的3D真值数据，部分标签数据）或多视图设置中的相机参数。

为了解决这些问题，我们提出了EpipolarPose，一种用于3D人体姿态估计的自我监督（Self-Supervise）学习方法，它不需要任何3D真值数据或相机外部参数。在训练期间，EpipolarPose从多视图图像估计2D姿势，然后利用**对极几何（epipolar geometry）**来获得3D姿势和相机几何，随后用于训练3D姿势估计器。

对极几何是立体视觉几何。当两个相机从两个不同位置拍摄3D场景时，在3D点和2D映射之间会有一定的几何相关性，在图像点之间产生约束。这个关系是基于针孔相机模型近似得到的。
参考：https://blog.csdn.net/lin453701006/article/details/55096777
计算机视觉基础——对极几何(Epipolar Geometry)
https://blog.csdn.net/baidu_38172402/article/details/83304245

我们证明了该方法在标准基准数据集上的有效性（Human3.6M 和 MPI-INF-3DHP），在弱/自监督方法中达到了最先进的效果。此外，我们提出了一种新的性能评估方法 Pose Structure Score（PSS），它是一种尺度不变的结构感知度量，用于评估姿势相对于其ground-truth的结构合理性。代码和预训练模型发布于https://github.com/mkocabas/EpipolarPose。

1 Introduction

室外的人体姿势估计是计算机视觉中的挑战性问题。尽管存在用于二维（2D）姿态估计的大规模数据集[2,20]，但3D数据集[16,23]要么限于实验室内设置或者在尺寸和多样性方面受限。

由于室外采集三维人体姿态标注的成本较高，且三维数据集有限，因此研究人员采用弱监督或自监督的方法，在现有二维姿态数据集的基础上，通过最小的额外监督，获得精确的三维姿态估计量。为此目的已发展了各种方法。除了2D姿势真值之外，这些方法还需要各种形式的额外监督（例如不成对的3D真值数据[42]，部分标签[31]）或多视图设置中的（外在的）相机参数[30]。据我们所知，只有一种方法[9]可以通过仅使用2D真值来生成3D姿态估计器。在本文中，我们提出了另一种这样的方法。

在这里插入图片描述
我们的方法“EpiloparPose”使用2D位姿估计和对极几何来获得3D位姿，然后用来训练3D位姿估计器。"EpipolarPose"适用于任意数量的相机(必须至少有2台)，它不需要任何3D监控或外部相机参数，但是，如果提供这些参数，它可以利用它们。在Human3.6M[16]和 mpi - info - 3dhp[23]数据集上，我们在弱/自监督方法中，提出了一种新的最先进的三维姿态估计方法。

传统评价指标

MPJPE(mean per joint position error):每个关节位置误差的平均值

PCK(percentage of correct keypoints):正确关键点的百分比

本文提出指标

PSS（pose structure score）

人体姿态估计允许后续更高层次的推理应用，例如自动系统(汽车、工业机器人)和动作识别。在这类任务中，Pose中的结构误差(structural errors)可能比传统评价指标的定位误差(localization errors)更为重要。这些度量独立地对待每个关节，因此不能对姿态整体结构进行评估。图4显示了相对于参考位姿结构上非常不同的pose，却具有相同的MPJPE。为了解决这个问题，我们提出了一种新的性能度量方法，称为位姿结构评分(PSS)，它对位姿中的结构错误非常敏感。PSS计算一个尺度不变的性能评分，能够根据一个姿态的基本事实对其结构合理性进行评分。注意，PSS不是一个损失函数，它是一个性能度量，可以与MPJPE和PCK一起用来描述位姿估计器的表示能力

为了计算PSS，我们首先需要对真实姿态的自然分布进行建模。为此，我们使用了一种非监督聚类方法。p表示一个预测的pose，q代表真实pose。首先,我们分别找到最接近p和q的聚类中心。如果p，q最接近(即分配)相同的聚类,那么q的PSS是1,否则为0。

Contributions

提出了一种利用单幅图像预测人体三维姿态的方法。训练中，不需要任何三维监督或摄像机参数。它利用对极几何和二维真实姿态完成自己的三维监督。
在弱/自监督的三维人体姿态估计方法中达到最先进
为了更好地捕捉结构误差，提出了一种新的三维人体姿态估计性能指标——姿态结构评分(PSS)。

2 Related work

我们的方法EpipolarPose，是一个利用单视图进行姿态估计;在训练过程中采用多视图、自我监督的方法。在文献中讨论这种方法之前，我们首先简要回顾一下完全单视图(在训练和预测期间)和完全多视图方法。

Single-viewd methods

在最近的许多工作中，卷积神经网络(CNN)被用来直接从图像中估计三维关节的坐标[39,40,4135,23]。Li和Chan[19]是第一个证明深度神经网络可以在单幅图像的三维人体姿态估计中达到合理的精度。他们使用了两个深度回归网络和身体部位检测。Tekin等人的[39]研究表明，将传统的用于监督学习的CNNs与用于结构学习的自动编码器相结合可以获得良好的效果。与一般的回归操作相反，Pavlakos等人[29]首先将三维人体姿态估计作为体素空间中的三维关键点定位问题。最近，Sun等人提出了“积分位姿回归（integral pose regression）” 结合体积热图与soft-argmax activation，并获得了最先进的结果。

此外，还有两阶段方法将三维位姿推理任务分解为两个独立的阶段:估计二维位姿，并将其提升到三维空间[8,24,22,12,47,8,41,23]。这一类别的最新方法使用最先进的2D位姿估计器[7, 44, 25, 18]来获取图像平面上的关节位置。Martinez等人[22]使用一个简单的深度神经网络，可以通过最先进的二维位姿估计器产生的 2D pose估计结果进行三维姿态估计。Pavlakos等人[28]提出了利用节点间的有序深度关系来绕过完全三维监督的想法。

在本分类下的方法需要全三维监督，或者需要在全三维监测的基础上进行额外的监测(如纵坐标深度)

Multi-view methods

此类别中的方法在测试和训练期间都需要多视图输入。早期的工作[1,5,6,3,4]使用标定相机获得的二维位姿估计，通过三角剖分或图像结构模型生成三维位姿。最近，许多研究人员[11, 10]采用深度神经网络对多视图输入进行全三维监督建模。

Weakly/self-supervised methods

由于缺乏3D标注，许多文章[9,31,42,30]研究了基于弱监督/自我监督的人体姿态估计方法。Pavlakos等人使用图形结构模型从多视图图像的关键点热图中获得全局位姿结构。然而，他们的方法需要全标定相机和一个关键点探测器产生二维热图。

Rhodin等人的[31]利用多视图一致性约束来监督网络。他们需要少量的3D真实数据，以避免退化的解决方案（POSE崩溃到单一位置）。因此，缺乏室外三维真实数据是该方法的一个限制因素[31]。

最近引入了深度逆图形网络[38,45]已应用于人体姿态估计问题[42,9]。Tung等人训练了一个生成式对抗网络，该网络通过预测三维位姿的投影与输入二维关节之间的重建损失训练了一个三维姿态发生器，以及训练了一个区分预测的3D pose 与真实3D pose的鉴别器。在这项工作之后，Drover等人通过修改鉴别器来识别可信的2D投影，消除了对3D真实数据的需要。

据我们所知，只有EpipolarPose和Drover等人的方法不需要任何3D监督或摄像机参数。虽然他们的方法没有利用图像特征，但EpipolarPose利用了图像特征和极对几何，并产生了更准确的结果(误差比Drover等人的方法小4.3毫米)

3 Models and Methods

总体训练方法流程图如图2所示。橙色背景的部分表示推断流程。对于EpipolarPose的训练，假设设置如下。有n台相机(必须满足n≥2)同时拍摄场景中人的照片。摄像机的id从1到n，连续的摄像机彼此接近(即基线较小)。相机产生图像 $I_{1},I_{2},...,I_{n}$ 。然后，连续图像对的集合形成训练样本。

在这里插入图片描述

3.1 Training

在EpipolarPose的训练流程中（图2），有两个分支，每个分支以相同的姿态估计网络开始（ResNet后跟反卷积网络[36]）。这些网络在MPII人类姿势数据集（MPII）上进行了预训练[2]。在训练期间，仅训练上半分支中的姿态估计网络; 另一个被冻结了。

可以使用2台以上的摄像机训练EpipolarPose，但为了简单起见，我们将在此描述n = 2的训练管道。对于n = 2，每个训练样本仅包含一个图像对。图像 $I_{i},I_{i+1}$ 分别输入三维(上分支)和二维(下分支)的姿态估计网络，分别地得到体素热图

w;h为反卷积后的空间尺寸，d为超参数，定义深度分辨率。应用soft argmax 激活函数 $\varphi(\cdot)$ 之后，我们得到了3D pose $\hat{V}\in\mathbb{R}^{J\times3}$ 和 2D pose $\hat{U}\in\mathbb{R}^{J\times2}$