Learning the Depths of Moving People by Watching Frozen People之论文详解

最新推荐文章于 2024-04-19 09:35:59 发布

知行SUN

最新推荐文章于 2024-04-19 09:35:59 发布

阅读量1.5k

点赞数 1

分类专栏：科研单目深度估计图像算法文章标签：深度估计

本文链接：https://blog.csdn.net/excellent_sun/article/details/93903543

版权

图像算法同时被 3 个专栏收录

20 篇文章 0 订阅

订阅专栏

科研

7 篇文章 0 订阅

订阅专栏

单目深度估计

4 篇文章 1 订阅

订阅专栏

Learning the Depths of Moving People by Watching Frozen People

1、摘要
2、简介
3. MannequinChallenge数据集
4.深度预测模型
- 4.1.运动视差的深度

论文链接：https://arxiv.org/abs/1904.11111

1、摘要

我们提出了一种在单目摄像机和场景中的人都可以自由移动的情况下预测密集深度的方法。用于从单目视频恢复动态非刚性物体的深度的现有方法对物体的运动施加强烈假设并且可能仅恢复稀疏深度。在本文中，我们采用数据驱动的方法，从新的数据来源中学习人物深度先验：成千上万的人们模仿人体模型的互联网视频，即冻结在多样化，自然的姿势，而手持摄像机巡视现场。因为人是静止的，所以可以使用多视图立体重建来生成训练数据。在推理时，我们的方法使用来自场景的静态区域的运动视差线索来指导深度预测。我们通过移动手持摄像机捕获的复杂人物动作的真实世界序列展示了我们的方法，显示了对前沿的单目深度预测方法的改进，并显示了使用我们预测的深度产生的各种3D效果。

2、简介

手持摄像机观看动态场景是现代摄影中常见的场景。在这种情况下，恢复密集的几何图形是一项具有挑战性的任务：移动对象违反了三维视觉中使用的极线约束，并且通常被视为运动（SFM）和多视图立体（MVS）方法中现有结构中的噪声或异常值。然而，人类的深度感知并不容易被物体运动所愚弄，相反，即使物体和观察者在运动，即使只用一只眼睛观察到这个场景，我们也能对物体的几何结构和深度顺序进行可行的解释[11]。在这项工作中，我们在计算上朝着实现这种能力迈出了一步。

我们专注于从普通视频预测准确，密集的深度的任务，其中摄像机和场景中的人都是自然移动的。我们关注人物有两个原因：i）在许多应用中（例如，增强现实），人类构成场景中的显著对象，以及ii）人类运动是有关节的，难以建模。通过采用数据驱动的方法，我们避免对人的形状或变形进行明确地假设，而是从数据中学习这些先验。

我们从哪里获得数据来训练这种方法？生成高质量的合成数据，其中相机和场景中的人自然移动是非常具有挑战性的。深度传感器（例如，Kinect）可以提供有用的数据，但是这样的数据通常限于室内环境并且在捕获和处理中需要大量的手动工作。此外，很难聚集具有不同姿势的不同年龄和性别的人。相反，我们从一个令人惊讶的来源获取数据：YouTube视频，其中人们模仿人体模型，即冻结在精心设计的自然姿势，而手持相机巡视现场（图2）。这些视频包含我们新的MannequinChallenge（MC）数据集，我们计划为研究社区发布这些数据集。因为包括人在内的整个场景是静止的，所以我们使用SfM和MVS估计相机姿势和深度，并使用该衍生的3D数据作为训练的监督。

特别地，我们设计并训练深度神经网络，其采用输入RGB图像，人类区域的掩模和环境的初始深度（即，非人类区域），并在整个图像上输出密集的深度图。环境和人物（见图1）。注意，使用视频的两帧之间的运动视差来计算环境的初始深度，从而向网络提供从单个帧不可获得的信息。经过训练，我们的模型可以处理任意相机和人体运动的自然视频。

我们展示了我们的方法在各种真实世界互联网视频上的适用性，用手持相机拍摄，描绘了复杂的人类行为，如步行，跑步和跳舞。我们的模型比最先进的单目深度预测和运动立体方法更准确地预测深度。我们还将进一步展示我们的深度贴图如何用于产生各种3D效果，例如合成景深、深度感知绘制以及将虚拟对象插入具有正确遮挡的3D场景中。

总之，我们的贡献是：i）一种用于深度预测的新数据源，由大量互联网视频组成，其中摄像机以自然姿势围绕“冻结”的人移动，以及生成精确深度图和摄像机姿势的方法; ii）一个基于深度网络的模型设计和训练，在同时摄像机运动和复杂的人体运动的挑战情况下以预测密集的深度图。

3. MannequinChallenge数据集

人体模型挑战[42]是一种流行的视频趋势，其中人们通常以有趣的姿势冻结 - 而相机操作员在场景中移动（例如，图2）。自2016年底以来，已创建了数千个此类视频并将其上传到YouTube。如果人们在视频期间保持静止，我们可以假设场景是静态的，并通过使用SfM和MVS算法处理它们来获得准确的相机姿势和深度信息。我们发现了大约2,000个可以进行此处理的候选视频。这些视频包含我们新的MannequinChallenge（MC）数据集，它涵盖了与不同年龄段人群的各种场景，自然地构成了不同的群体配置。接下来，我们将详细介绍如何处理视频并获取训练数据。

估计相机姿势。遵循类似于Zhou等人的方法[53]。我们使用ORB-SLAM2 [24]来识别每个视频中的可跟踪序列，并估计每个帧的初始相机姿势。在此阶段，我们处理视频的低分辨率版本以提高效率，并将视野设置为60度（现代手机相机的典型值）。然后，我们使用视觉SfM系统[32]以更高的分辨率重新处理每个序列，该系统确定了初始相机姿态和内部参数。该方法提取并匹配跨帧的特征，然后执行整批调整优化。最后，使用Zhou等人的技术去除具有非平滑相机运动的序列 [53]。

使用MVS计算密集深度。一旦估计了每个剪辑的相机姿势，我们就会重建每个场景的密集几何体。特别是，我们使用最先进的MVS系统COLMAP恢复每帧密集深度图[33]。

由于我们的数据包括涉及相机运动模糊，阴影，反射等的具有挑战性的互联网视频，因此MVS估计的原始深度图通常对于训练目的来说太嘈杂。我们通过仔细的深度过滤机制来解决这个问题。我们首先使用[19]的深度改进方法过滤离群深度。我们通过考虑MVS深度的一致性和从两帧之间的运动视差获得的深度来进一步去除错误的深度值。具体而言，对于每个帧，我们为每个有效像素p计算归一化误差在这里插入图片描述 :

在这里插入图片描述其中DMVS是由MVS获得的深度图，Dpp是从两帧运动视差计算的深度图（参见4.1节）。删除
的深度值，我们根据经验设置。
过滤剪辑。有几个因素会使视频剪辑不适合进行训练。例如，人们可以在视频中的某个点“解冻”（开始移动），或者视频可以在后台包含合成图形元素。动态对象和合成背景不遵守多视图几何约束，因此被视为异常值并由MVS过滤，可能留下很少的有效像素。因此，在我们的两遍清洁阶段之后，我们删除<20％的像素具有有效MVS深度的帧。

此外，我们删除估计的径向失真系数在这里插入图片描述（指示超级相机）或估计焦距为<=0.6或>=1.2（相机参数可能不准确）的帧。我们保留至少30帧长的序列，宽高比为16：9，宽度为>=1600像素。最后，我们手动检查剩余序列的轨迹和点云，并消除明显不正确的重建。删除的图像示例显示在补充材料中。处理后，我们获得4,690个序列，总共超过170K有效图像深度对。我们将MC数据集分为训练，验证和测试集，其中80：3：17。

4.深度预测模型

我们以监督的方式在MannequinChallenge数据集上训练我们的深度预测模型，即，通过回归到由MVS pipeline生成的深度。一个关键问题是如何构建网络输入，以便对冻结的人进行训练，同时推断自由运动的人物。一种选择是从单个RGB图像回归到深度，但是这种方法忽略了对多于一个视图的场景的静态区域的几何信息考虑。为了从这些信息中获益，我们向网络输入了静态非人类区域的深度图，根据运动视差w.r.t.另一个场景视图进行估算。

如图3所示，我们网络的完整输入包括参考图像，人类区域M的二进制掩模，从运动视差估计的深度图（移除了人类区域）Dpp，信心图C和可选人体关键点图K.我们假设在训练和推理期间来自SfM的已知，准确的相机姿势。在在线推理设置中，可以通过视觉惯性测距法获得相机姿势。给定这些输入，网络预测整个场景的完整深度图。为了匹配MVS深度值，网络必须在人类区域中绘制深度，从估计的中重新定义非人类区域的深度，并最终使整个场景的深度保持一致。

我们的网络架构是[3]沙漏网络的变体，最近邻的上采样层由双线性上采样层取代。

以下部分详细描述了我们的模型输入和训练损失。在补充材料中，我们提供了额外的实施细节和完整的推导。
在这里插入图片描述

4.1.运动视差的深度

视频中两帧之间的运动视差提供了场景静态区域的初始深度估计。（假设人类是动态的，而场景的其余部分是静态的）。给定参考图像和源图像对，我们使用FlowNet2.0 [13]估算从Ir到Is的光流场。使用两个视图之间的相对摄像机姿态，我们使用平面加视差（P+P）表示法（15，43），从估计的流场中计算出初始深度图Dpp。
在某些情况下，例如帧之间的向前/向后相对摄像机运动，估计的深度可能在某些图像区域中定义不清（即，外极可能位于图像中）。我们检测并过滤掉第二节中描述的深度值 4.2。
关键帧选择。

如果两个视图之间的二维位移很小或很好地近似于同形图（ homography）（例如，在纯相机旋转的情况下），则来自运动视差的深度可能不适定。

为了避免这种情况，我们在选择参考帧Ir和相应的源关键帧Is时应用基线标准。我们希望这两个视图具有显着的重叠，同时具有足够的基线。正式地，对于每个Ir，我们找到Is的索引s为
在这里插入图片描述
其中drj是Ir的相机中心与其相邻帧Is之间的距离L2。术语Orj是Ir和Ij中共同可见SfM features的一小部分：

其中Vj是Ij中可见的一组features。我们丢弃Orj<To的帧对，即共同可见特征的分数应该大于阈值（我们设置阈值为0.6），并将最大帧间隔限制为10。我们发现这些视图选择标准在我们的实验中运作良好。

待续。。。。。

知行SUN

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
Learning the Depths of Moving People by Watching Frozen People之论文详解

Learning the Depths of Moving People by Watching Frozen People摘要简介3. MannequinChallenge数据集论文链接：https://arxiv.org/abs/1904.11111摘要我们提出了一种在单目摄像机和场景中的人都可以自由移动的情况下预测密集深度的方法。用于从单目视频恢复动态非刚性物体的深度的现有方法对物体的...
复制链接

扫一扫