Chapter 13 3D reconstruction

13.1从X中获得形状   809

13.1.1从阴影和光度立体法生成形状   809

13.1.2从纹理中提取形状   814

13.1.3从焦点中提取形状   814

13.2三维扫描   816

13.2.1范围数据合并   820

13.2.2应用:数字遗产   824

13.3表面表示   825

13.3.1表面插值   826

13.3.2表面简化   827

13.3.3几何图像   828

13.4基于点的表示   829

13.5容量表示   830

13.5.1隐式曲面和水平集   831

13.6基于模型的重建   833

13.6.1建筑   833

13.6.2面部建模和跟踪   838

13.6.3应用:面部动画   839

13.6.4人体建模和跟踪   843

13.7恢复纹理贴图和反照率   850

13.7.1估算BRDF   852

13.7.2应用:3D模型捕捉   854

13.8额外阅读材料   855

图13.1三维形状获取和建模技术:(a)阴影图像(Zhang,

Tsai等人,1999)©1999 IEEE;(b)纹理梯度(G rding1992)©1992 Springer;(c)

实时深度从焦点(Nayar、Watanabe和Noguchi 1996)©1996 IEEE;用棍子阴影扫描场景(Bouguet和Perona 1999)©1999斯普林格;(e)将范围图合并成三维模型(Curless和Levoy 1996)©1996 ACM;(f)基于点的表面建模(Pauly、Keiser等2003)©2003 ACM;(g)使用线和平面自动建模三维建筑(Werner和Zisserman 2002)©2002斯普林格;(h)时空立体中的三维面部模型(Zhang、Snavely等2004)©2004 ACM;(i)从单张图像中拟合全身、表情和手势(Pavlakos、Choutas等2019)©2019 IEEE。

正如我们在前一章所见,已经开发了许多立体匹配技术,用于从两张或多张图像中重建高质量的3D模型。然而,立体只是众多可用于从图像推断形状的线索之一。在本章中,我们将探讨多种此类技术,不仅包括诸如阴影和焦点等视觉线索,还包括将多个范围或深度图像合并成3D模型的技术,以及重建特定模型的技术,如头部、身体或建筑。

在用于推断形状的各种线索中,表面的阴影(图13.1a)可以提供大量关于局部表面方向的信息,从而揭示整体表面形状(第13.1.1节)。当不同方向的灯光可以分别开启和关闭时,这种方法变得更加强大(光度立体)。纹理梯度(图13.1b),即随着表面倾斜或远离相机弯曲而形成的规则图案的缩短,也能提供类似的局部表面方向线索(第13.1.2节)。焦点是另一种强大的场景深度线索,尤其是在使用两个或多个具有不同焦距设置的图像时(第13.1.3节)。

三维形状也可以通过主动照明技术估算,例如光条纹(图13.1d)或飞行时间测距仪(第13.2节)。使用这些技术(或基于图像的立体)获得的部分表面模型可以合并成更连贯的三维表面模型(图13.1e),如第13.2.1节所述。这些技术已被用于构建高度详细且精确的文化遗产模型,如历史遗址(第13.2.2节)。生成的表面模型随后可以简化,以支持不同分辨率的查看和网络流传输(第13.3.2节)。除了处理连续表面外,还可以将三维表面表示为密集的三维定向点集合(第13.4节)或体积元素(第13.5节)。

3D建模如果了解我们试图重建的对象,可以更加高效和有效。在第13.6节中,我们将探讨三个专门但常见的例子,即建筑(图13.1g)、头部和面部(图13.1h)以及全身(图13.1i)。除了建模人物外,我们还将讨论跟踪他们的技术。

形状和外观建模的最后阶段是提取一些彩色纹理,用于绘制到我们的3D模型上(第13.7节)。有些技术甚至超越了这一点,实际上估计完整的BRDF(第13.7.1节),尽管如果不想重新照亮场景,获取表面光场可能更容易(第14.3.2节)。

由于存在如此多样的技术来执行三维建模,本章不详细讨论其中任何一种。鼓励读者在引用的参考文献和最近的计算机视觉会议上找到更多信息,以及更多

专门讨论这些主题的会议,例如,国际三维视觉会议(3DV)和IEEE国际自动面部和手势识别会议(FG)。

13.1从X中获得形状

除了双眼视差外,阴影、纹理和焦点都在我们感知形状的过程中起着作用。从这些线索推断出形状的研究有时被称为“从X中提取形状”,因为各个实例分别称为从阴影中提取形状、从纹理中提取形状和从焦点中提取形状。1在本节中,我们将探讨这三种线索及其如何用于重建三维几何。关于所有这些主题的良好概述可以在Wolff、Shafer和Healey(1992b)编辑的基于物理的形状推断论文集、Ackermann和Goesele(2015)的综述以及Ikeuchi、Matsushita等人(2020)的书中找到。

13.1.1从阴影和光度立体法生成形状

当你看到平滑着色物体的图像时,比如图13.2中所示的那些,仅凭阴影的变化就能清楚地看出物体的形状。这怎么可能呢?答案是,随着物体表面法线的变化,物体的表观亮度会根据局部表面方向与入射光照之间的角度变化而变化,如图2.15(第2.2.2节)所示。

从这种强度变化中恢复表面形状的问题被称为阴影中的形状,是计算机视觉中的经典问题之一(Horn 1975)。霍恩和布鲁克斯(1989)编辑的论文集是这一主题的重要资料来源,特别是关于变分方法的那一章。张、蔡等人(1999)的综述不仅回顾了更近期的技术,还提供了一些比较结果。

大多数基于阴影算法的形状假设认为所考虑的表面具有均匀的反照率和反射率,并且光源方向要么已知,要么可以通过使用参考物体进行校准。在远距离光源和观察者假设下,强度变化(辐照度方程)完全取决于局部表面的方向,

I(x,

y) = R(p(x, y), q(x, y)),                                      (13.1)

1我们在第12章已经看到了立体形状、轮廓形状和剪影形状的例子。

图13.2从阴影中合成形状(Zhang,Tsai等人,1999)©1999 IEEE:阴影图像,(a-b)光线来自前方(0,0,1),(c-d)光线来自右前方(1,0,1);(e-f)使用Tsai和Shah(1994)的技术从阴影重建得到的相应形状。

其中(p,q)=(zx,zy)是深度图的导数,R(p,q)称为反射率图。例如,漫射(朗伯)表面的反射率图是(非

表面法线=(p,q,1)/√1+p2+q2与的点积(2.89)为负

光源方向v =(vx,vy,vz),

=

 max                               

(13.2)

其中P为表面反射率因子(反照率)。

原则上,方程(13.1-13.2)可以用来估计(p,q),使用非线性最小二乘法或其他方法。不幸的是,除非施加额外的约束条件,否则每个像素(p,q)的未知数比测量值(I)多。一个常用的约束条件是平滑度约束,

我们在第4.2节(4.18)中已经看到过。另一个是可积性约束,εi =∫(py—qx)2 dx dy,                                       (13.4)

这是自然产生的,因为对于一个有效的深度图z(x,y),(p,q)=(zx,zy),我们有py = zxy = zyx = qx。

与其首先恢复方向场(p,q),并将其积分以获得表面,也可以直接最小化图像形成方程(13.1)中的差异,同时找到最优深度图z(x,y)(Horn 1990)。不幸的是,从阴影中提取形状容易受到搜索空间中的局部最小值的影响,与其他涉及多个变量的同时估计的变分问题一样,也可能存在收敛缓慢的问题。使用多分辨率技术(Szeliski 1991a)可以帮助加速收敛,而使用更复杂的优化技术(Dupuis和Olienis 1994)则可以帮助避免局部最小值。

在实际应用中,除了石膏模型外,其他表面很少具有单一均匀的反照率。因此,从阴影中提取形状的方法需要与其他技术结合或以某种方式扩展,才能发挥作用。一种方法是将其与立体匹配(Fua和Leclerc 1995;Logothetis、Mecca和Cipolla 2019)或已知纹理(表面图案)相结合(White和Forsyth 2006)。立体匹配和纹理成分在有纹理的区域提供信息,而从阴影中提取形状则有助于填补均匀颜色区域的信息,并提供更精细的表面形状信息。

光度立体法。另一种使阴影形状更可靠的方法是使用多个光源,这些光源可以有选择地开启和关闭。这种技术被称为光度立体法,因为光源的作用类似于传统立体中位于不同位置的相机(Woodham 1981)。对于每个光源,我们都有一个不同的反射率图,R1(p,q),R2(p,q)等。给定像素处的相应强度I1、I2等,原则上我们可以恢复未知的反照率P和表面方向估计(p,q)。

对于漫射表面(13.2),如果用参数化局部方向,我们得到(对于非阴影像素)一组线性方程,形式如下

Ik = P · vk ,                                                (13.5)

我们可以通过线性最小二乘法从这些方程中恢复出P。只要(三个或更多)向量vk是线性独立的,即它们不在同一方位角(远离观察者的方向),这些方程就是条件良好的。

2关灯的替代方法是使用三种颜色的灯光(Woodham1994;Hernandez、Vogiatzis等人2007;Hernandez和Vogiatzis2010)。

图13.3多视图光度立体(Logothetis、Mecca和Cipolla2019)©2019 IEEE:初始COLMAP多视图立体重建;经过(Park、Sinha等人2017)和(Logothetis、Mecca和Cipolla2019)的细化。

一旦每个像素的表面法线或梯度被恢复,就可以使用正则化表面拟合的变体(4.24)将其整合到深度图中。Nehab、Rusinkiewicz等人(2005)和Harker、O‘Leary(2008)讨论了更复杂的技术来实现这一点。多视图立体用于粗略形状,光度立体用于精细细节的结合仍然是一个活跃的研究领域(Hern ndez、Vogiatzis和Cipolla 2008;Wu、Liu等人2010;Park、Sinha等人2017)。Logothetis、Mecca和Cipolla

(2019)描述了一种可以生成非常高质量扫描的系统(图13.3),尽管它需要复杂的实验室设置。Cao、Waechter等人(2020)描述了一种更为实用的设置,仅需一台立体相机和一个闪光灯即可生成闪光/非闪光对。此外,还可以将光度立体应用于户外网络摄像头序列(图13.4),利用太阳的轨迹作为可变方向照明器(Ackermann、Langguth等人2012)。

当表面是镜面时,可能需要超过三个光照方向。事实上,公式(13.1)给出的辐射方程不仅要求光源和相机远离表面,还忽略了相互反射,这可能是物体表面阴影的重要来源,例如,在凹陷结构如沟槽和裂缝内部观察到的变暗现象(Nayar,Ikeuchi,和Kanade 1991)。然而,如果能够控制光源和相机的位置,使其互为镜像,即可以(概念上)交换光源和相机的位置,则可以通过一种称为赫尔姆霍兹立体视觉的方法来恢复表面深度和法线的约束条件(Zickler,Belhumeur,和Kriegman 2002)。

早期的光度立体研究假定已知照明方向和反射率(BRDF)函数,而最近的研究则旨在放宽这些限制。

图13.4基于网络摄像头的室外光度立体(Ackermann,Langguth等人,2012年)©2012 IEEE:输入图像、恢复的法线图、三个基础BRDF,它们分别位于各自的材质图之下,以及从新的太阳位置合成的渲染。

图13.5从纹理合成形状(G rding1992)©1992 Springer: (a) regular

纹理包裹在曲面上,以及相应的表面法线估计。形状从镜面反射(Savarese、Chen和Perona 2005)©2005斯普林格出版社:(c)规则的图案反射在曲面镜上会产生(d)曲线,从中可以推断出三维点的位置和法线。

戈塞勒(2015)对这些技术进行了广泛的综述,而石、莫等人(2019)则描述了他们的DiLiGenT数据集和评估非朗伯光度立体的基准,并引用了超过100篇相关论文。与其他计算机视觉领域一样,深度网络和端到端学习现在常用于从光度立体中恢复形状和光照方向。一些最近的论文包括陈、韩等人(2019)、李、罗布尔斯-凯利等人(2019)、海夫纳、叶等人(2019)、陈、瓦赫特等人(2020)以及桑托、瓦赫特和松下(2020)。

13.1.2从纹理中提取形状

在规则纹理中观察到的缩短变化也可以提供有关局部表面方向的有用信息。图13.5展示了一个这样的模式示例,以及估计的局部表面方向。从纹理形状算法需要多个处理步骤,包括提取重复图案或测量局部频率以计算局部仿射变形,以及后续阶段推断局部表面方向。这些不同阶段的详细信息可以在研究文献中找到(Witkin 1981;Ikeuchi 1981;Blostein和Ahuja 1987;G rding 1992;Malik和Rosenholtz 1997;Lobay和Forsyth 2006)。一篇更近期的论文使用生成模型来表示纹理的重复出现,并在每个像素处联合优化模型与局部

表面方向(Verbin和Zickler 2020)。

当原始图案规则时,可以将一个规则但略有变形的网格拟合到图像上,并使用该网格进行各种图像替换或分析任务(Liu,Collins和Tsin 2004;Liu,Lin和Hays 2004;Hays,Leordeanu等2006;Lin,Hays等2006;Park,Brocklehurst等2009)。如果使用特别打印的纹理布料图案,这一过程会变得更加容易(White和Forsyth 2006;White,Crane和Forsyth 2007)。

如图13.5c-d所示,当物体在弯曲镜面的反射中以规则模式变形时,可以利用这些变形恢复表面形状(Savarese、Chen和Perona 2005;Rozenfeld、Shimshoni和Lindenbaum 2011)。此外,还可以从镜面流中推断局部形状信息,即从移动摄像机视角观察镜面运动时的信息(Oren和Nayar 1997;Zisserman、Giblin和Blake 1989;Swaminathan、Kang等人2002)。

13.1.3从焦点中提取形状

物体深度的一个强烈线索是模糊的程度,随着物体表面远离相机的对焦距离而增加。如图2.19所示,当物体表面远离对焦平面时,根据相似三角形(练习2.4)容易建立的公式,混淆圈会增大。

已经开发出多种技术,用于从模糊程度估计深度(由模糊产生的深度)(Pentland1987;Nayar和Nakagawa1994;Nayar、Watanabe和Noguchi1996;Watanabe和Nayar1998;Chaudhuri和Rajagopalan1999;Favaro和Soatto2006)。为了使这种技术实用,需要解决一些问题:

•从对焦平面移开时,两个方向上的模糊程度都会增加。因此,有必要使用不同对焦拍摄的两张或更多张图像

图13.6实时失焦深度(Nayar,Watanabe和Noguchi 1996)©1996 IEEE:(a)实时焦点范围传感器,包括两个远心透镜之间的半镀银镜(右下),一个将图像分成两个CCD传感器的棱镜(左下),以及由氙灯照亮的锯齿形棋盘图案(顶部);(b–c)来自两个摄像头的输入视频帧及其对应的深度图;(e–f)两帧图像(放大后可以看到纹理)和(g)对应的3D网格模型。

距离设置(Pentland1987;Nayar、Watanabe和Noguchi1996)或在深度上转换物体并寻找最大锐度点(Nayar和Nakagawa 1994)。

•物体的放大倍率会随着焦距距离的变化或物体的移动而变化。这可以通过显式建模(使对应关系更加复杂)或使用远心光学来实现,后者近似于正射相机,并且需要在镜头前设置光阑(Nayar,Watanabe,和Noguchi 1996)。

必须可靠地估计失焦量。一种简单的方法是计算一个区域的平方梯度的平均值,但这种方法存在一些问题,包括上面提到的图像放大问题。更好的解决方法是使用精心设计的有理滤波器(Watanabe和Nayar1998)。

图13.6展示了一个实时深度数据的示例,该系统使用了两个位于不同深度但共享同一光路的成像芯片,以及一个从同一方向投射棋盘图案的主动照明系统。如图13.6b至g所示,该系统能够为静态和动态场景生成高精度的实时深度图。

图13.7范围数据扫描(Curless和Levoy 1996)©1996 ACM:(a)表面上的激光点由CCD传感器成像;(b)激光条带(片)由传感器成像(条带的变形编码了到物体的距离);(c)成果的3D点集被转换为(d)三角网格。

13.2三维扫描

正如我们在前一节中所见,主动照明场景,无论是为了使用光度立体法估计法线,还是为了通过离焦生成形状的人工纹理,都能显著提升视觉系统的性能。这种主动照明技术自机器视觉早期就已用于构建高精度传感器,以利用各种测距(或测距感应)技术估算三维深度图像(Besl1989;Curless1999;Hebert2000;Zhang2018)。虽然像激光雷达(光检测和测距)和基于激光的3D扫描仪这样的测距设备曾经仅限于商业和实验室应用,但低成本深度相机如微软Kinect(Zhang2012)的发展彻底改变了计算机视觉的许多方面。现在,通常将此类相机生成的注册彩色和深度帧称为RGB-D(或RGBD)图像(Silberman,Hoiem等2012)。

早期用于计算机视觉和计算机图形学的主动照明传感器之一是激光或光条传感器,它从偏移视角观察场景或物体时,在光面上扫过,如图13.7b所示(Rioux和Bird 1993;Curless和Levoy 1995)。当光条落在物体上时,它会根据所照亮表面的形状改变其形状。然后,利用光学三角测量法可以简单地估计出特定光条中所有可见点的三维位置。更详细地说,通过了解光条的三维平面方程,我们可以推断出每个被照亮像素对应的三维位置,正如之前讨论的(2.70–2.71)。通过找到精确的时间峰值,可以提高光条技术的准确性。

图13.8使用投射阴影进行形状扫描(Bouguet和Perona 1999)©1999斯普林格:相机设置包括一个点光源(台灯但没有反光罩)、一根手持棍子投射阴影,以及(b)被扫描物体位于两个平面背景前。(c)使用脉冲照明系统实时生成深度图(Iddan和Yahav 2001)©2001 SPIE.

每个像素的照明(Curless和Levoy,1995)。扫描仪的最终精度可以通过斜边调制技术来确定,即通过成像校准对象中的锐利折痕(Goesele、Fuchs和Seidel,2003)。

布盖和佩罗纳(1999)提出了一种有趣的光条测距变体。他们没有投射光条,而是简单地挥动一根棍子,在由点光源如灯或太阳照亮的场景或物体上投下阴影(图13.8a)。由于两个背景平面相对于相机的方向已知(或在预校准过程中推断),每个条纹的平面方程可以从两条投影线中推导出来,这两条线的三维方程是已知的(图13.8b)。当阴影穿过被扫描物体时,其变形揭示了该物体的三维形状,就像常规光条测距一样(练习13.2)。这种技术还可以用于估计背景场景的三维几何形状及其在进入阴影时外观的变化,从而在场景中投射新的阴影(Chuang,Goldman等人,2003)(Section10.4.3)。

使用光条纹技术扫描物体所需的时间与所使用的深度平面数量成正比,这通常与图像中的像素数量相当。通过以结构化的方式开启和关闭不同的投影像素,可以构建一个更快的扫描仪,例如使用二进制或灰度码(Besl1989)。例如,假设我们使用的LCD投影仪有1,024列像素。取每列地址对应的10位二进制代码(0...1,023),我们依次投射第一位、第二位等。经过10次投射(例如,在同步30Hz的摄像机-投影仪系统中为三分之一秒),相机中的每个像素都知道它看到的是投影仪光的哪一列中的哪个像素。类似的方法也可以用于估计折射率。

图13.9微软Kinect深度相机(张2012)©2012 IEEE:(a)硬件,包括红外(IR)斑点图案投影仪和彩色及红外摄像头组合;(b)样本红外图像的特写,显示了投射的点;(c)最终深度图,在未被投影仪照亮的区域有黑色“阴影”。

通过在物体后面放置一个监视器来检测物体的特性(Zongker,Werner等人,1999;Chuang,Zongker等人,2000)(第14.4节)。也可以用单个激光束构建非常快速的扫描仪,即实时飞点光学三角测量扫描仪(Rioux,Bechthold等人,1987)。

如果需要更快,即帧率更高的扫描,我们可以将单一纹理图案投射到场景中。Proesmans、Van Gool和Defoort(1998)描述了一种系统,该系统将棋盘网格投影到物体上,并利用网格的变形来推断三维形状。不幸的是,这种技术只有在表面足够连续以连接所有网格点时才有效。除了投影网格外,还可以投影一个或多个正弦条纹图案,然后通过相对相位位移恢复表面的变形,这一过程称为条纹投影轮廓测量法(Su和Zhang 2010;Zuo、Huang等2016;Zhang 2018)。

微软Kinect(张2012)深度相机采用了一种类似的技术,投射出一个红外(IR)斑点图案,看起来像是一堆随机的点,但实际上是由已知校准的伪随机模式组成(图13.9)。通过测量红外相机中看到的点与其预期位置之间的水平位移(视差),可以计算出深度图,在未被点照亮的像素上进行插值(法内洛,雷曼等2016;法内洛,瓦伦丁等2017b)。自发布以来,Kinect相机在计算机视觉研究中得到了广泛应用(张2012;韩,邵等2013),以及诸如3D人体跟踪(Section13.6.4)和物体扫描及家庭内部重建等应用(第13.2.1节)。Kinect传感器被用于创建首个广泛使用的3D语义场景理解数据集(西尔伯曼,霍伊姆等2012),尽管后来也创建了更大的3D扫描数据集(戴,张等2017)。 可以使用高速定制照明和传感硬件构建更高分辨率的系统。Iddan和Yahav(2001)描述了他们3DV Zcam的构建

图13.10使用时空立体技术实时密集3D面部捕捉(张、斯纳维利等,2004)©2004 ACM:来自两个立体相机之一的五帧连续视频(每第五帧不含条纹图案,以便提取纹理);(b)生成的高质量3D表面模型(深度图以着色渲染的形式展示)。

视频速率深度感知相机,它将脉冲光平面投射到场景中,然后在短时间内积分返回的光线,从而获得场景中各个像素距离的时间飞行测量。关于早期时间飞行系统的详细描述,包括激光雷达的幅度和频率调制方案,可参见(Besl1989),而更近期的描述则可以在Hansard、Lee等人(2012)的书中找到。虽然微软Kinect深度相机的最初版本使用了斑点图案结构光系统(Zhang2012),但更新的Kinect V2采用了一种时间飞行(ToF)传感器,该传感器利用幅度调制光信号的相位测量(Bamji,O‘Connor等,2014)。传统的多频相位解缠技术可用于估计绝对深度,但对于动态场景,通过同时建模深度和物体速度可以获得更精确的深度(St hmer,Nowozin等,2015)。

与其使用单个摄像头,也可以通过立体成像装置构建主动照明范围传感器,从而形成通常被称为主动(照明)立体的系统。最简单的方法是向场景投射随机条纹图案以创建合成纹理,这有助于匹配无纹理表面(康、韦伯等人,1995)。就像编码图案单摄像头测距一样,投射已知的一系列条纹可以使像素之间的对应关系明确,并允许仅在单个摄像头中看到的像素恢复深度估计(沙尔斯坦和舍利斯基,2003)。该技术已被用于生成大量高度准确的多图像立体对和深度图,以评估立体对应算法(沙尔斯坦和舍利斯基,2002;希施勒和沙尔斯坦,2009;沙尔斯坦、希施勒等人,2014),并学习深度图先验和参数(帕尔、温曼等人,2012)。精心设计的算法可以在500赫兹下执行局部模式匹配(法内洛、瓦伦丁。等,2017a、b)。

虽然投影多个图案通常需要场景或物体保持静止,但额外的处理可以为动态场景生成实时深度图。基本思路(Davis,Ramamoorthi和Rusinkiewicz 2003;Zhang,Curless和Seitz 2003)是假设每个像素周围的三维时空窗口内的深度几乎恒定,并使用该三维窗口进行匹配和重建。根据表面形状和运动的不同,这一假设可能会出错,如Davis,Nahab等人(2005)所示。为了更准确地建模形状,Zhang,Curless和Seitz(2003)在时空窗口内建模线性视差变化,并表明通过全局优化视频体积中的视差和视差梯度估计可以获得更好的结果(Zhang,Snavely等人2004)。图13.10显示了将此系统应用于人脸的结果;帧率3D表面模型随后可用于进一步的基于模型的拟合和计算机图形操作(Section13.6.2)。如前所述,运动建模

也可应用于基于相位的飞行时间传感器(St hmer,Nowozin等人,2015)。

关于主动测距的一个注意事项。当被扫描表面过于反光时,相机可能会看到物体表面的反射,并认为这个虚拟图像就是真实场景。对于中等程度反光的表面,如Wood等人(2000)中的陶瓷模型或Park、Newcombe和Seitz(2018)中的玉米卷,即使在镜面层下仍有足够的漫反射,仍可获得三维测距图。(然后可以单独恢复镜面部分,以生成表面光场,具体方法见第14.3.2节。)然而,对于真正的镜子,主动测距仪不可避免地会捕捉到镜中反射的虚拟三维模型,因此必须使用其他技术,例如寻找扫描设备的反射(Whelan、Goesele等人,2018)。

13.2.1范围数据合并

虽然单个范围图像对于实时Z键或面部运动捕捉等应用非常有用,但它们通常被用作更完整3D物体建模的构建模块。在这些应用中,接下来的两个处理步骤是部分3D表面模型的配准(对齐)及其整合到连贯的3D表面上(Curless 1999)。如果需要,可以随后进行模型拟合阶段,使用参数化表示如广义圆柱体(Agin和Binford 1976;Nevatia和Binford 1977;Marr和Nishihara 1978;Brooks 1981)、超二次曲面(Pentland 1986;Solina和Bajcsy 1990;Terzopoulos和Metaxas 1991),或非参数模型如三角网格(Boissonat 1984)或基于物理的模型(Terzopoulos、Witkin和Kass 1988;Delingette、Hebert和Ikeuichi 1992;Terzopoulos和Metaxas 1991;McInerney和Terzopoulos 1993;Terzopoulos 1999)。还开发了多种用于分割范围的技术。

将图像转换为更简单的构成表面(Hoover,Jean-Baptiste等人,1996)。

最常用的三维配准技术是迭代最近点(ICP)算法,该算法在寻找两个待对齐表面之间的最近点匹配和解决三维绝对定向问题之间交替进行(第8.1.5节,(8.31-8.32)(Besl和McKay 1992;Chen和Medioni 1992;Zhang 1994;Szeliski和Lavall e 1996;Gold、Rangarajan等人1998;David、DeMenthon等人2004;Li和Hartley

2007;Enqvist、Josephson和Kahl 2009)。一些技术,如Chen和Medioni(1992)开发的技术,使用局部表面切平面来提高计算精度并加速收敛。最近,Rusinkiewicz(2019)提出了一种类似于定向粒子中使用的能量项的对称定向点距离(Szeliski和Tonnesen 1992)。Tam、Cheng等人(2012)和Pomerleau、Colas和Siegwart(2015)的论文对ICP及其相关变体进行了很好的综述。

由于两个表面通常只有部分重叠且可能存在异常值,因此通常使用鲁棒匹配标准(第8.1.4节和附录B.3)。为了加快最近点的确定速度,并使距离计算更加精确,可以将两个点集之一(例如当前合并模型)转换为带符号的距离函数,可选择使用八叉树样条表示以提高紧凑性(Lavall e和Szeliski 1995)。基本ICP算法的变体可用于在非刚性变形下注册3D点集,例如在医学应用中(Feldmar和Ayache 1996;Szeliski

和Lavall e 1996)。与点或范围测量相关的颜色值也可以作为注册过程的一部分来提高鲁棒性(Johnson和Kang 1997;Pulli 1999)。

不幸的是,ICP算法及其变体只能找到三维表面之间的局部最优对齐。如果事先不知道这一点,则需要使用基于局部描述符的更全局的对应或搜索技术,这些描述符对三维刚性变换具有不变性。例如,自旋图像是一种围绕局部法线轴的三维表面区域的局部圆形投影(Johnson和Hebert 1999)。另一个(较早的)例子是Stein和Medioni(1992)引入的溅射表示。近年来,相关研究探讨了从RGB-D图像中估计姿态的问题(第11.2节),这实际上与将范围图对齐到3D模型相同。最近关于这一主题的论文(Drost,Ulrich等人2010;Brachmann,Michel等人2016;Vidal,Lin等人2018)通常会在6DOF物体姿态估计基准测试上进行评估,该基准测试还每年举办一系列关于此主题的工作坊。

在对两个或多个三维表面进行对齐之后,可以将它们合并成一个模型。一种方法是使用三角化网格表示每个表面并组合这些

图13.11范围数据合并(Curless和Levoy 1996)©1996 ACM:(a)两个带符号的距离函数(左上)与其(权重)在左下合并,生成一组组合函数(右列),从中可以提取等值面(绿色虚线);(b)带符号的距离函数与空和未见空间标签结合,以填补等值面上的孔洞。

使用一种有时称为“拉链”(Soucy和Laurendeau 1992;Turk和Levoy 1994)的过程来构建网格。另一种现在更为广泛采用的方法是计算一个(截断的)带符号距离函数,该函数拟合所有三维数据点(Hoppe、DeRose等1992;Curless和Levoy 1996;Hilton、Stoddart等1996;Wheeler、Sato和Ikeuchi 1998)。

图13.11展示了一种方法,即由Curless和Levoy(1996)开发的体积范围图像处理(VRIP)技术。该技术首先从每个范围图像计算出加权有符号距离函数,然后通过加权平均过程将它们合并。为了使表示更加紧凑,使用了游程编码来编码空、可见和变化(有符号距离)体素,仅存储每个表面附近的有符号距离值。一旦计算出合并后的有符号距离函数,就可以使用零交叉表面提取算法,如行进立方体(Lorensen和Cline 1987),来恢复网格化的表面模型。图13.12展示了完整的范围数据合并和等值面提取流程的一个例子。Rusinkiewicz、Hall-Holt和Levoy(2002)提出了一种实时系统,结合了快速ICP和基于点的合并与渲染。

消费级RGB-D相机如Kinect的出现,重新激发了人们对大规模范围数据注册和合并的兴趣(Zhang2012;Han,Shao et al.2013)。该领域的一篇有影响力的文章是Kinect Fusion (Izadi,Kim et al.2011;Newcombe,Izadi et al.

5一种替代的、更紧凑的表示方法是使用八叉树(Lavall e和Szeliski 1995)。

图13.12“快乐佛”雕像的重建和硬拷贝(Curless和Levoy1996)©1996 ACM:喷漆后的原始雕像照片

哑光灰色;(b)部分范围扫描;(c)合并范围扫描;(d)重建模型的彩色渲染;(e)使用立体光刻构建的模型的硬拷贝。

图13.13使用KinectFusion实时系统融合多个深度图像(New- combe,Izadi等人,2011)©2011 IEEE。这三幅图像显示了原始(有噪声的)测距扫描、渲染为彩色法线贴图以及融合后的3D模型,同时渲染为法线贴图和Phong着色。

等,2011),该方法结合了类似ICP的SLAM技术——DTAM(Newcombe,Love- grove和Davison 2011),以及实时TSDF(截断有符号距离函数)体积积分,具体细节见第13.5.1节。后续论文包括用于非刚性对齐的弹性碎片(Zhou,Miller和Koltun 2013)、Oc- tomap(Hornung,Wurm等2013),后者使用八叉树和概率占用技术,以及Voxel Hashing(Nießner,Zollh fer等2013)和Chisel (Klingensmith,Dryanovski等2015),两者均采用空间哈希压缩TSDF。KinectFusion还扩展到

处理高度变化的扫描分辨率(Fuhrmann和Goesele 2011,2014)、动态场景(DynamicFusion (Newcombe,Fox,和Seitz 2015)、VolumeDeform (Innmann,Zollh fer等2016)和Motion2Fusion (Dou,Davidson等2017)),利用非刚性表面变形进行全局模型优化(ElasticFusion: Whelan,Salas- Moreno等2016),生成全局一致的BundleFusion

模型(Dai,Nießner

等,2017),并使用深度网络执行非刚性匹配(Bo i,Zollh fer

(et al.2020)。关于这些以及其他从RGB-D扫描构建3D模型的技术的更多细节,可参见Zollh fer、Stotko等人(2018)的综述。

最近的一些工作在范围数据合并中使用神经网络来表示TSDF (Park,Florence等,2019),用传入的范围数据扫描更新TSDF(Weder,Schonberger等,2020,2021),或提供局部先验(Chabra,Lenssen等,2020)。范围数据合并技术通常用于三维物体扫描以及视觉地图构建和导航(RGB-D SLAM),我们在第11.5节中讨论过。随着深度感知(如akalidar)技术开始出现在手机中,它可以用来构建完整的纹理映射3D房间模型,例如使用Occipital的Canvas应用程序(Stein 2020)。

基于带符号距离或特征(内部-外部)函数的体积范围数据合并技术也被广泛用于从定向或非定向点集提取平滑且行为良好的表面(Hoppe、DeRose等人,1992;Ohtake、Belyaev等人,2003;Kazhdan、Bolitho和Hoppe,2006;Lempitsky和Boykov,2007;Zach、Pock和Bischof,2007b;Zach,2008),详见第13.5.1节和Berger、Tagliasacchi等人(2017)的综述论文。

13.2.2应用:数字遗产

主动测距技术,结合表面建模和外观建模技术(第13.7节),在考古学和历史保护领域得到广泛应用,这些领域也常被称为数字遗产(MacDonald2006)。

图13.14吴哥-通的巴戎寺激光测距模型(Banno,Masuda

(et al.2008)©2008斯普林格出版社:(a)现场拍摄的照片;(b)从地面扫描的详细头部模型;(c)使用安装在气球上的激光测距传感器扫描的寺庙最终合并的3D模型。

此类应用中,获取文化物品的详细三维模型,然后用于分析、保存、修复和复制艺术品等应用(Rioux和Bird1993)。

一个显著的例子是莱沃伊、普利等人(2000年)的数字米开朗基罗项目,该项目使用了安装在大型龙门上的赛博韦激光条扫描仪和高质量数码单反相机,以获取佛罗伦萨米开朗基罗的大卫像及其他雕塑的详细扫描。该项目还对《罗马城市地图》进行了扫描,这是一张古代的罗马石质地图,已经破碎成碎片,通过数字技术重新匹配。整个过程,从最初的规划到软件开发、采集和后期处理,历时数年(并有许多志愿者参与),最终产生了丰富的三维形状和外观建模技术。

此后,更大规模的项目也已尝试,例如,对完整的寺庙遗址如吴哥窟(Ikeuchi和Sato2001;Ikeuchi和Miyazaki2007;Banno,Masuda等2008)进行扫描。图13.14显示了该项目的细节,包括一张样本照片、从地面水平扫描的详细3D(雕塑)头部模型,以及最终合并的3D遗址模型的航拍概览,该模型是通过气球获取的。

13.3表面表示

在前面的章节中,我们已经看到了用于集成三维范围扫描的不同表示。现在我们详细地研究其中的一些表示。显式的表面表示,如三角网格、样条(Farin1992,2002)和细分曲面——

(Stollnitz、DeRose和Salesin 1996;Zorin、Schr der和Sweldens

1996;Warren和Weimer 2001;Peters和Reif 2008)不仅能够创建高度详细的模型,还能进行诸如插值(第13.3.1节)、平滑或优化以及降采样和简化(第13.3.2节)等处理操作。我们还探讨了基于离散点的表示方法(第13.4节)和体素表示方法(第13.5节)。

13.3.1表面插值

最常见的一种表面操作是从一组稀疏数据约束中重建表面,即散点数据插值,我们在第4.1节中讨论过。在构建这类问题时,表面可以参数化为高度场f (x),三维参数曲面f (x),或非参数模型,如三角形集合。

在第4.2节中,我们探讨了如何将二维函数插值和逼近问题{di }→f (x)转化为使用正则化(4.18–4.23)的能量最小化问题。这类问题还可以指定表面不连续点的位置以及局部方向约束(Terzopoulos1986b;Zhang,Dugas-Phocion等2002)。

解决此类问题的一种方法是使用有限元分析(4.24–4.27)在离散网格或网格上对表面和能量进行离散化(Terzopoulos 1986b)。然后可以使用稀疏系统求解技术,如多重网格法(Briggs、Henson和McCormick 2000)或层次预条件共轭梯度法(Szeliski 2006b;Krishnan和Szeliski 2011;Krishnan、Fattal和Szeliski 2013)来求解这些问题。表面也可以通过多级B样条的层次组合表示(Lee、Wolberg和Shin 1997)。

一种替代方法是使用径向基(或核)函数(Boult和Kender 1986;Nielson 1993),我们在Section4.1.1中已经讨论过。正如我们在该部分提到的,如果我们希望函数f(x)能够精确插值数据点,则必须求解一个稠密线性系统来确定每个基函数的权重(Boult和Kender 1986)。事实证明,对于某些正则化问题,例如(4.18–4.21),存在一些径向基函数(核)可以给出与完整解析解相同的结果(Boult和Kender 1986)。不幸的是,由于稠密系统的求解量级与数据点数量呈立方关系,基函数方法只能用于小规模问题,如基于特征的图像变形(Beier和Neely 1992)。

当建模三维参数曲面时,向量值函数f在(4.18–4.27)中编码了曲面上的3D坐标(x,y,z),而域x =(s,t)则编码了曲面的参数化。这类曲面的一个例子是寻求对称性的参数模型,这些模型是广义圆柱体的弹性变形版本。

d7(Terzopoulos、Witkin和Kass1987)。在这些模型中,s是沿可变形管脊的参数,t是围绕管的参数。为了在基于图像的轮廓曲线拟合过程中约束模型,使用了多种平滑性和径向对称力。

也可以定义非参数表面模型,例如一般的三角化网格,并通过有限元分析为这些网格配备内部平滑度指标和外部数据拟合指标(Sander和Zucker 1990;Fua和Sander 1992;Delingette、Hebert和Ikeuichi 1992;McInerney和Terzopoulos 1993)。虽然大多数方法假设标准的弹性变形模型,该模型使用二次内部平滑度项,但也可以使用次线性能量模型来更好地保留表面褶皱(Diebel、Thrun和Br nig 2006),或者使用图卷积神经网络(GCNNs)作为更新方程的替代方案,如深度主动表面模型(Wickramasinghe、Fua和Knott 2021)。三角网格还可以通过添加样条元素(Sullivan和Ponce 1998)或细分曲面(Stollnitz、DeRose和Salesin 1996;Zorin、Schrader和Sweldens 1996;Warren和Weimer 2001;Peters和Reif 2008)来生成具有更好平滑度控制的表面。

参数化和非参数化表面模型都假设表面的拓扑结构事先已知且固定。为了实现更灵活的表面建模,我们可以将表面表示为一组定向点(第13.4节)或使用三维隐函数(第13.5.1节),这些方法还可以与弹性三维表面模型结合使用(McInerney和Terzopoulos 1993)。

从无组织点样本中重建表面的领域继续迅速发展,最近的工作解决了数据缺陷问题,如Berger、Tagliasacchi等人(2017)的调查所述。

13.3.2表面简化

一旦从3D数据创建了三角网格,通常希望创建一个网格模型的层次结构,例如,在计算机图形应用程序中控制显示的细节级别(LOD)。(本质上,这是图像金字塔的三维类比(第3.5节)。)一种方法是用具有细分连接性的网格来近似给定的网格,然后可以计算一组三角小波系数(Eck,DeRose等,1995)。更连续的方法是使用顺序边折叠操作,从原始高分辨率网格过渡到粗略的基础级网格(Hoppe,1996;Lee,

图13.15飞机模型的渐进式网格表示(Hoppe1996)©1996

ACM:(a) base网格M0 (150个面);(b) mesh M 175 (500个面);(c) mesh M425(1000个面);(d)原始网格M=Mn(13546个面)。

图13.16几何图像(Gu、Gortler和Hoppe 2002)©2002 ACM:(a)257×257的几何图像定义了表面的法线;(b)512×512的法线贴图定义了顶点法线;(c)最终的光照3D模型。

Sweldens等人于1998年提出)。由此产生的渐进网格(PM)表示可以用于以任意细节层次渲染3D模型,如图13.15所示。关于多分辨率几何建模的最新论文可以在Floater和Hormann(2005)的综述以及Dodgson、Floater和Sabin(2005)编辑的论文集中找到。

13.3.3几何图像

尽管Eck、DeRose等人(1995)、Hoppe(1996)和Lee、Sweldens等人(1998)提出的多分辨率表面表示方法支持细节层次操作,但它们仍然由不规则的三角形集合组成,这使得它们更难以以缓存高效的方式进行压缩和存储。8

为了使三角剖分完全规则(均匀且网格化),Gu、Gortler和Hoppe(2002)描述了如何通过沿精心选择的线切割表面网格并将其表示“展平”成一个正方形来创建几何图像。图13.16a显示了表面网格映射到单位正方形上的(x,y,z)值,而图13.16b则显示了相关的(nx,ny,nz)正法向量图,即与每个网格顶点关联的表面法向量,这可以用来补偿原始几何图像在高度压缩时视觉保真度的损失。

13.4基于点的表示

正如我们之前提到的,基于三角形的表面模型假设三维模型的拓扑结构(以及通常的粗略形状)事先已知。虽然可以在变形或拟合过程中重新网格化模型,但更简单的解决方案是完全放弃显式的三角形网格,让三角形顶点作为定向点、粒子或表面元素(surfels)(Szeliski和Tonnesen 1992)。

为了赋予生成的粒子系统内部平滑约束,可以定义成对相互作用势能,这些势能近似于使用局部有限元分析获得的等效弹性弯曲能量。9不是提前为每个粒子(顶点)定义有限元邻域,而是使用软影响函数来耦合附近的粒子。由此产生的三维模型在演化过程中可以改变拓扑结构和粒子密度,因此可用于插值带有空洞的部分三维数据(Szeliski,Tonnesen和Terzopoulos 1993b)。表面方向和折痕曲线中的不连续性也可以建模(Szeliski,Tonnesen和Terzopoulos 1993a)。

为了将粒子系统渲染为连续表面,可以使用局部动态三角化启发式方法(Szeliski和Tonnesen 1992)或直接表面元素喷射(Pfister、Zwicker等2000)。另一种选择是首先将点云转换为隐式有符号距离或内外函数,使用最小有符号距离到定向点(Hoppe、DeRose等1992)或通过径向基函数插值特征(内外)函数(Turk和O‘Brien 2002;Dinh、Turk和Slabaugh 2002)。通过计算有符号距离函数的移动最小二乘(MLS)估计,可以获得更高的精度,包括处理不规则点密度的能力(Alexa、Behr等2003;Pauly、Keiser等2003),如图13.17所示。进一步改进可以通过局部球体拟合(Guennebaud和Gross 2007)、更快更准确的重采样(Guennebaud、Germann和

9如前所述,另一种方法是使用次线性相互作用势,这鼓励保存

表面压痕(Diebel、Thrun和Br nig,2006)。

图13.17基于点的表面建模与移动最小二乘法(MLS)(Pauly,Keiser等,2003)©2003 ACM:©一组点(黑点)转化为一个隐式内外函数(黑曲线);(b)最近定向点的有符号距离可以作为内外距离的近似;(c)一组具有可变采样密度的定向点,表示三维表面(头部模型);(d)用于移动最小二乘法的局部采样密度估计;(e)重建的连续三维表面。

Gross(2008)和核回归以更好地容忍异常值(Oztireli、Guennebaud和Gross,2008)。

伯杰、塔利亚萨奇等人(2017)的调查讨论了最近关于从点云重建平滑完整表面的工作。施普斯、萨特勒和波莱菲斯(2020)的《SurfelMeshing》论文介绍了一种基于可变分辨率表面元表示的

RGB-D SLAM系统,该系统在整合更多扫描时会重新三角化。郭、王等人(2020)的调查还讨论了使用深度学习的其他近期3D点云方法,这些方法在第5.5.1节中已有提及。本-沙巴特和古尔德(2020)以及朱和史密斯(2020)则介绍了更近期用于估计3D模型更好法线的算法。

13.5容量表示

建模三维表面的第三种方法是构建三维体积内外函数。我们在第12.7.2节中已经看到了这种例子,当时我们探讨了体素着色(Seitz和Dyer 1999)、空间雕刻(Kutulakos和Seitz 2000)以及水平集(Pons、Keriven和Faugeras 2007)技术在立体匹配中的应用,而在第12.7.3节中,我们讨论了使用二值轮廓图像重建体积的方法。

在本节中,我们将研究连续隐式(内部-外部)函数来表示三维形状。

13.5.1隐式曲面和水平集

虽然多面体和体素表示可以任意精确地表示三维形状,但它们缺乏连续隐式曲面所具有的某些内在平滑特性。连续隐式曲面使用指示函数(或特征函数)F(x,y,z)来确定哪些3D点位于F(x,y,z)< 0内或位于F(x,y,z)> 0外。

早期使用隐式函数在计算机视觉中建模三维物体的例子是超二次曲面(Pentland 1986;Solina和Bajcsy 1990;Waithe和Ferrie 1991;Leonardis、Jakli和Solina 1997)。为了建模更多样化的

形状,超二次曲面通常与刚性或非刚性变形结合使用(Terzopoulos和Metaxas 1991;Metaxas和Terzopoulos 2002)。超二次曲面模型可以拟合到范围数据,也可以直接用于立体匹配。

通过在规则的三维网格上定义一个带符号的距离函数,可以构建另一种隐式形状模型,必要时使用八叉树样条来更粗略地表示远离其表面(零集)的函数(Lavall e和Szeliski 1995;Szeliski和Lavalle 1996;Frisken、Perry等2000;Ohtake、Belyaev等2003)。我们已经看到

了带符号距离函数用于表示

距离变换(第3.3.3节)、二维轮廓拟合和跟踪的水平集(第7.3.2节)、体积立体(第12.7.2节)、范围数据合并(第13.2.1节)以及基于点的建模(第13.4节)的例子。直接在网格上表示这些函数的优势在于,可以快速轻松地查找任何(x,y,z)位置的距离函数值,同时使用marching cubes算法提取等值面也很容易(Lorensen和Cline 1987)。Ohtake、Belyaev等(2003)的工作尤为突出,因为它允许使用多种距离。

这些功能可以同时使用,然后在本地组合起来产生尖锐的特征,如折痕。

表面泊松重建(Kazhdan、Bolitho和Hoppe 2006;Kazhdan和Hoppe 2013)使用了一个密切相关体积函数,即平滑的0/1内外(特征或占据)函数,可以将其视为一个裁剪后的带符号距离函数。该函数的梯度设置为沿着已知表面点附近的定向表面法线方向,并在其他地方设为0。该函数本身通过八叉树上的二次张量积B样条表示,这提供了一种紧凑的表示方法,在远离表面或点密度较低的区域使用较大的单元格,并且能够高效地求解相关的泊松方程(4.24–4.27),例如第8.4.4节和P rez、Gangnet和Blake(2003)。

也可以用L1(总变分)约束来代替泊松方程中使用的二次惩罚,仍然可以获得一个凸优化问题,这可以

图13.18像素对齐隐式函数(PIFu)网络可以从单个输入图像中恢复穿着衣服的人的高分辨率三维纹理模型(Saito,Huang et al.2019)©2019 IEEE。

使用连续(Zach,Pock和Bischof2007b;Zach2008)或离散图切割(Lempitsky和Boykov2007)技术解决。

有符号距离函数在水平集演化方程中也起着重要作用(第7.3.2节和第12.7.2节),其中网格上的距离变换值随着表面演化而更新,以适应多视图立体照片一致性测量(Faugeras和Keriven 1998)。

与计算机视觉的许多其他领域一样,深度神经网络也开始应用于体积对象表示的构建和建模。一些神经网络从单张图像中构建三维表面或体积占用网格模型(Choy、Xu等2016;Tatarchenko、Dosovitskiy和Brox 2017;Groueix、Fisher等2018;Richter和Roth 2018),尽管最近的实验表明,这些网络可能只是识别一般对象类别并进行少量拟合(Tatarchenko、Richter等2019)。DeepSDFs (Park、Florence等2019)、IM-NET (Chen和Zhang 2019)、occupancy Networks (Mescheder、Oechsle等2019)、deep Implicit Surface(DISN)网络(Xu、Wang等2019)以及UCLID-Net (Guillard、Remelli和Fua 2020)训练网络将连续的(x;y;z)输入转换为有符号距离或[0;1]占据值,有时结合卷积图像编码器与多层感知机来表示颜色和表面细节(Oechsle、Mescheder等2019),而MeshSDF可以连续地将SDF转换为可变形网格(Remelli、Lukoianov等2020)。所有这些网络都使用潜在代码来表示来自ShapeNet数据集中的通用类别的单个实例(例如汽车或椅子)(Chang、Funkhouser等2015),尽管它们在网络的不同部分使用这些代码(要么在输入中,要么通过条件批量归一化)。这使得它们能够仅从一张图像重建3D模型。

像素对齐的隐式函数(PIFu)网络将全卷积图像特征与神经隐式函数结合起来,以更好地保存局部形状和颜色细节(Saito,

黄等人2019;佐藤、西蒙等人2020)。他们专门针对穿着衣物的人类进行训练,仅凭一张彩色图像就能生成完整的3D模型(图13.18)。神经辐射场(NeRF)将这一技术扩展到使用像素光线方向作为输入,并输出连续的不透明度和辐射值,从而能够通过光线追踪渲染从多个输入图像构建的闪亮3D模型(米尔登霍尔、斯里尼瓦桑等人2020)。这种表示方法与光图和表面光场有关,我们将在第14.3节中详细讨论。这两种系统都是神经渲染方法的例子,用于生成逼真的新视角,我们将在第14.6节中更详细地讨论。

为了处理更大规模(例如建筑规模)的场景,卷积占用网络(Peng,Niemeyer等,2020)首先从二维、多平面或三维网格中提取局部特征,然后使用训练好的MLP(全连接网络)将这些特征解码为局部占用体积。与建模完整的三维场景不同,局部隐式网格表示(Jiang,Sud等,2020)建模小的局部子体积,使其可以作为其他形状重建方法的一种先验。

13.6基于模型的重建

当我们提前了解要建模的对象时,可以使用专门的技术和表示方法构建更详细、更可靠的三维模型。例如,建筑通常由大型平面区域和其他参数形式(如旋转曲面)组成,这些形状通常垂直于重力方向且相互垂直(第13.6.1节)。头部和面部可以用低维的非刚性形状模型来表示,因为尽管人类面部的形状和外观变化极大,但仍然有界(第13.6.2节)。人体或其部分,如手,形成高度关节化的结构,可以使用由关节连接的分段刚性骨骼元素组成的运动链来表示(第13.6.4节)。

在本节中,我们重点介绍了用于这三种情况的一些主要思想、表示方法和建模算法。更多详细信息和参考文献可以在专门讨论这些主题的会议和研讨会上找到,例如国际三维视觉会议(3DV)和IEEE国际自动面部与手势识别会议(FG)。

13.6.1建筑

建筑模型,特别是从航拍照片中获得的模型,一直是研究时间最长的领域之一。

在摄影测量和计算机视觉中都存在这些问题(Walker和Herman,1988)。在

图13.19使用Fac¸ade系统进行交互式建筑建模(Debevec,Taylor,

(Malik1996)©1996 ACM:(a)输入图像中用户绘制的边缘显示为绿色;(b)阴影的3D实体模型;(c)几何图元叠加在输入图像上;(d)最终视图依赖的纹理映射3D模型。

在过去的二十年里,可靠的基于图像的建模技术的发展,以及数码相机和3D电脑游戏的普及,导致了这种系统的广泛应用。

德贝韦克、泰勒和马利克(1996)的工作是最早的混合几何和图像建模及渲染系统之一。他们的Fac¸ade系统结合了交互式图像引导的几何建模工具与基于模型的(局部平面加视差)立体匹配以及视图依赖的纹理映射。在交互式摄影测量建模阶段,用户选择块元素并将其边缘与输入图像中的可见边缘对齐(图13.19a)。然后,系统使用约束优化自动计算块的尺寸和位置以及相机位置(图13.19b-c)。这种方法本质上比一般特征基础的运动结构更可靠,因为它利用了块原始形状中的强大几何信息。贝克尔和博夫(1995)、霍里、安吉奥和阿莱(1997)、克里米尼西、里德和齐瑟曼(2000)以及霍林斯基、格拉蒂等人(2020)的相关工作也利用了类似的信息,这些信息来自消失点。辛哈、斯特迪等人(2008)的交互式图像建模系统中,使用消失点方向指导用户绘制多边形,这些多边形随后自动拟合到通过运动结构恢复的稀疏3D点。

一旦粗略的几何形状被估算出来,就可以使用局部平面扫描为每个平面面计算更详细的偏移图,Debevec、Taylor和Malik(1996)称之为基于模型的立体。最后,在渲染过程中,随着摄像机在场景中移动,来自不同视角的图像会被扭曲并混合在一起,这一过程(与光线有关

场和Lumigraph渲染;参见第14.3节)称为视图依赖纹理映射(图13.19d)。

图13.20全景图交互式3D建模(Shum、Han和Szeliski1998)©1998 IEEE:(a)带有用户绘制的垂直和水平(轴对齐)线的全景图广角视图;(b)走廊的单视重建。

对于室内建模,与其使用单张图片,不如使用全景图更为有用,因为这样可以看到更大的墙面和其他结构。舒姆、韩和斯泽利斯基(1998)开发的3D建模系统首先从多张图像中构建校准的全景图(第11.4.2节),然后让用户在图像中绘制垂直和水平线以划分平面区域的边界。这些线条最初用于确定每个全景图的绝对旋转角度,之后则与推断出的顶点和平面一起用于优化3D结构,该结构可以从一张或多张图像按比例恢复(图13.20)。近年来深度网络的进步使得自动推断线条及其连接点成为可能(黄、王等2018;张、李等2019),并能够构建完整的3D线框模型(周、齐、马2019;周、齐等2019b)。360°高动态范围全景图也可用于室外建模,因为它们能提供相对相机方向和消失点方向的高度可靠估计(安托内和特勒2002;特勒、安托内等2003)。

虽然早期基于图像的建模系统需要一些用户创作,但沃纳和齐瑟曼(2002)提出了一种完全自动化的线基重建系统。如第11.4.8节所述,他们首先检测线条和消失点,并用它们来校准相机;然后通过外观匹配和三焦张量建立线对应关系,这使他们能够重建一系列三维线段。接着,他们生成平面假设,使用共面的三维线和基于兴趣点处交叉相关得分的平面扫描(第12.1.2节)。平面的交点用于确定每个平面的范围,即初步粗略的几何形状,随后通过添加矩形或楔形凹陷和凸起进行细化。请注意,当有建筑物的俯视图可用时,这些可以进一步用于

图13.21使用3D线和面进行自动结构重建(Sinha、Steedly和Szeliski,2009)©2009 IEEE。

限制了三维建模过程(Robertson和Cipolla,2002年,2009年)。使用匹配的三维线来估计消失点方向和主要平面的想法被用于多个完全自动化的基于图像的建筑建模系统(Zebedin和Bauer

等,2008;Mi u k和Ko eck,2009

;Furukawa、Curless等,2009b;Sinha、Steedly,

以及Szeliski2009;Holynski、Geraghty等人2020)和SLAM系统(Zhou、Zou等人2015;Li、Yao等人2018;Yang和Scherer2019)。图13.21显示了Sinha、Steedly和Szeliski(2009)开发的系统中的一些处理阶段。

建筑的另一个共同特征是重复使用诸如窗户、门和柱廊等基本元素。建筑设计系统可以设计用于搜索这些重复元素,并将其作为结构推断过程的一部分(Dick,Torr和Cipolla 2004;Mueller,Zeng等2007;Schindler,Krishnamurthy等2008;Pauly,Mitra等2008;Sinha,Steedly等2008)。近年来,将平行线、交叉点和矩形等结构化元素与全轴对齐的三维模型结合用于建筑环境建模的方法被称为整体3D重建。更多细节可以在周、古川和马(2019)的最新教程、研讨会(周、古川等2020)以及平托雷、穆拉等(2020)的最新报告中找到。

这些技术的结合现在使得重建大型3D场景结构成为可能(Zhu和Kanade,2008)。例如,Pollefeys、Nist等人(2008)的Urbanscan系统利用装有GPS的车辆获取的视频,重建城市街道的纹理映射3D

模型。为了实现实时性能,他们不仅使用了优化的在线运动结构算法,还采用了GPU实现的平面扫描立体对齐到主平面和深度图融合的方法。Cornelis、Leibe等人(2008)提出了一种相关的系统,同样使用平面扫描立体(对齐到垂直构建-

infinac¸ades)结合了车辆的物体识别和分割。Mi u k和

Ko eck(2009

)利用全向图像和基于超像素的立体匹配沿主导平面方向,直接从主动测距重建。

图13.22三维模型拟合图像集合:(Pighin,Hecker等,1998)©

1998年ACM:(a)五张输入图像以及用户选择的关键点;(b)完整的键点和曲线集;(c)三个网格——原始网格、经过13个关键点调整后的网格,以及经过额外99个关键点调整后的网格;(d)将图像划分为可单独动画化的区域。

扫描数据与补偿了曝光和光照变化的彩色图像相结合也是可能的(Chen和Chen2008;Stamos、Liu等2008;Troccoli和Allen2008)。

许多基于这些计算机视觉技术的摄影测量重建系统已经开发出能够生成详细纹理映射的3D模型。10例如,可以用于从航拍无人机和地面摄影中重建大规模3D模型的商业软件包括Pix4D、11 Metashape、12和RealityCapture。13另一个例子是Occipital的Canvas手机应用程序14(Stein2020),该应用似乎结合了摄影测量(3D点和线匹配及重建,如

如上所述)和深度图融合。

13.6.2面部建模和跟踪

另一个领域中,专门的形状和外观模型极为有用,即头部和面部的建模。尽管乍看之下人的外貌似乎无穷无尽的变化,但一个人的头部和面部的实际形状可以用几十个参数来合理地描述(Pighin,Hecker等1998;Guenter,Grimm等1998;DeCarlo,Metaxas和Stone 1998;Blanz和Vetter 1999;Shan,Liu和Zhang 2001;Zollh fer,Thies等2018;Egger,Smith等2020)。

图13.22展示了一个基于图像的建模系统示例,用户在多张图像中指定的关键点用于将通用头部模型拟合到人脸。如图13.22c所示,在指定超过100个关键点后,面部形状变得非常适应且可识别。从原始图像中提取纹理贴图并应用到头部模型上,可以生成具有惊人视觉保真度的可动画模型(图13.23a)。

通过将主成分分析(PCA)应用于一组3D扫描的人脸,可以构建一个更强大的系统,这一主题我们在第13.6.3节中讨论。如图13.25所示,可以将可变形的3D模型拟合到单张图像,并利用这些模型进行各种动画和视觉效果(Blanz和Vetter 1999;Egger、Smith等2020)。还可以设计立体匹配算法,直接优化头部模型参数(Shan、Liu和Zhang 2001;Kang和Jones 2002),或使用实时立体成像与主动照明的输出(Zhang、Snavely等2004)(图13.10和13.23b)。

随着3D面部捕捉系统的复杂度提升,重建模型的细节和真实感也随之增强。现代系统不仅能够实时捕捉表面细节,如皱纹和褶皱,还能精确模拟皮肤反射、半透明度和次表层散射(Debevec,Hawkins等,2000;Weyrich,Matusik等,2006;Golovinskiy,Matusik等,2006;Bickel,Botsch等,2007;Igarashi,Nishino,和Nayar,2007;Meka,Haene等,2019)。

一旦构建了3D头部模型,它就可以用于多种应用中,例如头部追踪(Toyama 1998;Lepetit、Pilet和Fua 2004;Matthews、Xiao和Baker 2007),如图7.30所示,以及面部转移,即在视频中用一个人的脸替换另一个人的脸(Bregler、Covell和Slaney 1997;Vlasic、Brand等2005)。其他应用还包括通过扭曲面部图像使其更加吸引人来美化面部。

图13.23头部和表情跟踪及使用可变形3D模型的再动画。(a)模型直接拟合到五个输入视频流(Pighin、Szeliski和Salesin 2002)©2002斯普林格出版社:底部一行显示了根据顶部一行输入图像拟合姿态和表情参数的合成纹理映射3D模型的再动画结果。(b)模型拟合到帧率时空立体表面模型(Zhang、Snavely等2004)©2004 ACM:顶部一行显示了叠加了合成绿色标记的输入图像,而底部一行显示了拟合的3D表面模型。

有“标准”(Leyvand、Cohen-Or等人,2008年)、用于隐私保护的面部去识别(Gross、Sweeney等人,2008年)和面部交换(Bitouk、Kumar等人,2008年)。

近年来,3D头部模型的应用包括用于视频会议的逼真虚拟形象(Chu,Ma等,2020),用于自拍优化的3D解压(Fried,Shechtman等,2016;Zhao,Huang等,2019;Ma,Lin等,2020),以及单张照片肖像重照明(Sun,Barron等,2019;Zhou,Hadap等,2019;Zhang,Barron等,2020),图13.24展示了其中一个应用。最后一个应用作为“肖像光”功能出现在Google相册中。此外,Zollh fer,Thies等(2018)和Egger,Smith等(2020)的综述论文中还发现了其他15个应用。

13.6.3应用:面部动画

也许3D头部建模最广泛的应用是面部动画(Zollh fer,Thies等,2018)。一旦构建了一个人

头部形状和外观(表面纹理)的参数化3D模型,就可以直接用于追踪人的面部动作(图13.23a),并用这些相同的动作来动画化不同的角色。

图13.24人像阴影去除和处理(Zhang,Barron等,2020)©2020 ACM。上排显示原始照片,下排显示模拟出更讨人喜欢的光线后的相应增强照片。

以及表达式(Pighin、Szeliski和Salesin2002)。

可以构建这种系统的改进版本,首先将主成分分析(PCA)应用于可能的头部形状和面部外观的空间。Blanz和Vetter(1999)描述了一个系统,他们首先捕捉了一组200个彩色范围扫描。

面部(图13.25a),可以表示为大量(X,Y,Z,R,G,B)样本(vertices).16为了使三维变形有意义,不同人的扫描中相应的顶点必须首先对应起来(Pighin,Hecker等,1998)。一旦完成这一步,就可以应用主成分分析更自然地参数化三维可变形模型。通过在不同子区域进行单独分析,如眼睛、鼻子和嘴巴,可以增加该模型的灵活性,就像模块化特征空间中的方法一样(Moghaddam和Pentland,1997)。

计算出子空间表示后,该空间中的不同方向可以与不同的特征相关联,例如性别、面部表情或面部特征(图13.25a)。正如Rowland和Perrett(1995)的研究中所述,通过夸大人脸与平均图像的位移,可以将其转化为漫画形象。

3D可变形模型可以通过梯度下降法拟合到单张图像上,该方法基于输入图像与重新合成的模型图像之间的误差,在初始手动放置模型后,使其处于大致正确的姿态、比例和位置(图13.25b–c)。通过使用逆组合图像,可以提高此拟合过程的效率。

16圆柱坐标系为该集合提供了一个自然的二维嵌入,但这种嵌入对于执行PCA是不必要的。

图13.25三维可变形面部模型(Blanz和Vetter 1999)©1999 ACM:(a)原始的三维面部模型,在特定方向上增加了形状和纹理变化:偏离平均值(夸张)、性别、表情、体重和鼻形;(b)一个三维可变形模型拟合到单张图像,之后可以调整其重量或表情;(c)另一个三维重建的例子,以及一组不同的三维操作,如光照和姿态变化。

图13.26 3D可变形头模型的二十年时间线(Egger,Smith等,2020)©2020 ACM,包括Blanz和Vetter(1999)的原始论文结果、第一个公开可用的可变形模型(Paysan,Knothe等,2009)、面部重现结果(Kim,Garrido等,2018)以及基于GAN的模型(Gecer,Ploumpis等,2019)。

如Romdhani和Vetter(2003)所述的对齐(Baker和Matthews,2004)。

生成的纹理贴图3D模型可以进行修改,以产生多种视觉效果,包括改变人物的体重或表情,或者三维效果,如重新照明或基于3D视频的动画(第14.5.1节)。这些模型还可以用于视频压缩,例如仅传输少量面部表情和姿态参数来驱动合成虚拟形象(Eisert,Wiegand,和Girod2000;Gao,Chen等2003;Lombardi,Saragih等2018;Wei,Saragih等2019),或将静态肖像图像赋予生命(Averbuch-Elor,Cohen-Or等2017)。Egger,Smith等人(2020)关于3D可变形人脸模型的综述论文(图13.26)讨论了该领域的进一步研究和应用。

三维面部动画通常与演员的表演相匹配,这种技术被称为基于表演的动画(Section7.1.6)(Williams 1990)。传统的基于表演的动画系统使用标记式动作捕捉(Ma,Jones等2008),而一些较新的系统则利用深度相机或普通视频来控制动画(Buck,Finkelstein等2000;Pighin,Szeliski和Salesin 2002;Zhang,Snavely等2004;Vlasic,Brand等2005;Weise,Bouaziz等2011;Thies,Zollhofer等2016;Thies,Zollhofer等2018)。

后者的一个例子是为电影《本杰明·巴顿奇事》开发的系统,数字领域公司使用了Mova17的轮廓系统来捕捉演员布拉德·皮特的面部动作和表情(罗布和扎法2009)。轮廓技术结合了荧光颜料和多个高分辨率摄像机,实时捕捉演员的三维范围扫描。这些三维模型随后被转换成面部动作编码系统(FACS)的形状和表情参数(埃克曼和弗里森1978),以驱动不同的(较旧的)合成动画计算机生成图像(CGI)。

角色。Zollh fer、Thies等人(2018)的最新报告中可以找到更多关于性能驱动面部动画的例子。

13.6.4人体建模和跟踪

跟踪人类、建模其形状和外观以及识别其活动是计算机视觉领域中研究最为活跃的几个方面。每年的会议18和专门的期刊特刊(Hilton,Fua,and Ronfard2006)都致力于这一子领域。

以及两项调查(Forsyth、Arikan等人,2006年;Moeslund、Hilton和Krger,2006年)

列出超过400篇关于这些主题的论文。19人类Eva数据库包含多视角的人体动作视频序列,以及相应的动作捕捉数据、评估代码和基于粒子滤波的参考3D跟踪器。Sigal、Balan和Black(2010)的配套论文不仅描述了该数据库和评估方法,还对这一领域的重要工作进行了很好的综述。更近期的MPI FAUST数据集(Bogo、Romero等人,2014)包含300个人体扫描的真实高分辨率图像,并自动计算了真实对应关系;而更新的AMASS数据集(Mahmood、Ghorbani等人,2019)则拥有超过40小时的运动数据,涵盖了300多名受试者和11,000个动作。20

考虑到这一领域的广度,很难对所有这些研究进行分类,特别是

不同的技术通常相互补充。Moeslund、Hilton和Kr ger(2006)将

他们的调查涵盖了初始化、跟踪(包括背景建模和分割)、姿态估计以及动作(活动)识别。Forsyth、Arikan等人(2006)将他们的调查分为几个部分:跟踪(背景减除、可变形模板、流和概率模型)、从二维观察中恢复三维姿态、数据关联和身体部位。他们还包含了一个关于运动合成的部分,这部分在计算机图形学中研究得更为广泛(Arikan和Forsyth 2002;Kovar、Gleicher和Pighin 2002;Lee、Chai等人2002;Li、Wang和Shum 2002;Pullen和Bregler 2002):见第14.5.2节。该领域的另一潜在分类方法是根据输入是否使用二维或三维(或多视图)图像,以及是否使用二维或三维运动学模型。

在本节中,我们简要回顾了背景减除、初始化和检测、带流跟踪、三维运动学等领域中一些更具开创性和广泛引用的论文。

模型、概率模型、自适应形状建模和活动识别。我们建议读者参阅前面提到的综述,以了解其他主题和更多细节。

背景减除。许多人体跟踪系统的第一步是建模背景,以提取与人相对应的移动前景物体(轮廓)。Toyama、Krumm等人(1999)回顾了几种不同的抠图和背景维护(建模)技术,并对此主题进行了很好的介绍。Stauffer和Grimson(1999)描述了一些基于混合模型的技术,而Sidenbladh和Black(2003)则发展了一种更全面的方法,不仅建模背景图像统计特性,还建模前景物体的外观,例如它们的边缘和运动(帧差)统计特性。关于视频背景抠图的最新技术,如Sengupta、Jayaram等人(2020)和Lin、Ryabtsev等人(2021)的研究,在第10.4.5节的视频抠图部分有详细讨论。

一旦从一个或多个摄像头中提取出轮廓,就可以使用可变形模板或其他轮廓模型对其进行建模(Baumberg和Hogg 1996;Wren、Azarbayejani等1997)。随着时间的推移跟踪这些轮廓有助于分析场景中多人移动的情况,包括构建形状和外观模型,以及检测他们是否携带物体(Haritaoglu、Harwood和Davis 2000;Mittal和Davis 2003;Dimitrijevic、Lepetit和Fua 2006)。

初始化与检测。为了实现完全自动化的人员跟踪,首先需要在单个视频帧中检测(或重新获取)他们的存在。这一主题与行人检测密切相关,后者通常被视为一种物体识别(Mori,Ren等2004;Felzenszwalb和Huttenlocher 2005;Felzenszwalb,McAllester和Ra-manan 2008;Doll r,Wojek等2012;Doll r,Appel等2014;Sermanet,Kavukcuoglu等2013

;Ouyang和Wang 2013

;Tian,Luo等2015;Zhang,Lin等2016),因此将在第6.3.2节中进行更深入的讨论。基于2D图像初始化3D跟踪器的其他技术包括Howe,Leventon和Freeman(2000)、Ros-ales和Sclaroff(2000)、Shakhnarovich,Viola和Darrell(2003)、Sminchisescu,Kanaujia等(2005)、Agarwal和Triggs(2006)、Lee和Cohen(2006)、Sigal和Black(2006b)以及Stenger,Thayananthan等(2006)所描述的技术。

单帧人体检测和姿态估计算法可以独立用于执行跟踪(Ramanan、Forsyth和Zisserman 2005;Rogez、Rihan等2008;Bourdev和Malik 2009;G ler、Neverova和Kokkinos 2018;Cao、Hidalgo等2019),如第6.3.2节(图6.25)和第6.4.5节(图6.42–6.43)所述。然而,它们通常与帧间跟踪技术结合使用,以提供更好的可靠性。

图13.27跟踪三维人体运动:(a)人体手部的运动链模型(Rehg,Morris,和Kanade2003)©2003,经SAGE许可转载;(b)在视频序列中跟踪运动链的斑点模型(Bregler,Malik,和Pullen2004)©2004 Springer;(c-d)身体部位的概率松散肢体集合(Sigal,Bhatia等人2004)©2004 IEEE。

(Fossati、Dimitrijevic等人,2007;Andriluka、Roth和Schiele,2008;Ferrari、Marin-Jimenez和Zisserman,2008)。

跟踪与流。通过计算光流或匹配肢体外观来增强逐帧跟踪人员及其姿态的能力。例如,Ju、Black和Yacoob(1996)提出的纸板人模型将每条腿的部分(上部和下部)建模为移动的矩形,并使用光流估计其在每个后续帧中的位置。Cham和Rehg(1999)以及Sidenbladh、Black和Fleet(2000)利用光流和模板追踪肢体,同时采用处理多个假设和不确定性的技术。Bregler、Malik和Pullen(2004)使用完整的3D肢体和身体运动模型,具体描述如下。还可以将估计的运动场本身与某些原型匹配,以识别跑步动作的特定阶段,或将两个低分辨率视频片段进行匹配以实现视频替换(Efros、Berg等,2003)。基于流的跟踪也可用于追踪非刚性变形物体,如T恤(White、Crane和Forsyth,2007;Pilet,

Lepetit,和Fua2008;Furukawa和Ponce2008;Salzmann和Fua2010;Bo i,Zollh fer

等,2020;Bo i,Palafox等,2020,

2021)。也可以使用帧间运动

用于估计一个移动人的不断变化的纹理3D网格模型(de Aguiar,Stoll等人,2008)。

三维运动模型。使用更精确的人体形状和动作的三维模型可以大大提高人体建模和跟踪的有效性。这种表示方法在游戏和特效中的3D计算机动画中无处不在,

是一个运动模型或运动链,它规定了骨架中每个肢体的长度以及肢体或段之间的二维或三维旋转角度(图13.27a-b)。从可见表面点的位置推断关节角度的值称为逆运动学(IK),在计算机图形学中广泛研究。

图13.27a展示了Rehg、Morris和Kanade(2003)用于跟踪视频中手部运动的人类手部运动学模型。如你所见,手指与拇指之间的连接点有两个自由度,而指关节本身只有一个自由度。使用这种模型可以大大增强基于边缘的跟踪器处理快速运动、三维姿态的不确定性以及部分遮挡的能力。

可靠的实时手部跟踪和建模领域的一大进展是Kinect消费级RGB-D相机的引入(Sharp,Keskin等,2015;Taylor,Bor-deaux等,2016)。自那时起,常规RGB跟踪和建模也显著提升,新的技术利用神经网络提高了可靠性和速度(Zimmermann和Brox,2017;Mueller,Bernard等,2018;Hasson,Varol等,2019;Shan,Geng等,2020;Moon,Shiratori和Lee,2020;Moon,Yu等,2020;Spurr,Iqbal等,2020;Taheri,Ghorbani等,2020)。一些系统还结合了身体和手部跟踪,以更准确地捕捉人类的表情和活动(Romero,Tzionas和Black,2017;Joo,Simon和Sheikh,2018;Pavlakos,Choutas等,2019;Rong,Shiratori和Joo,2020)。

除了手部之外,运动链模型还被广泛用于全身建模和跟踪(O‘Rourke和Badler 1980;Hogg 1983;Rohr 1994)。一种流行的方法是为运动模型中的每个刚性肢体关联一个椭球体或超二次体,如图13.27b所示。然后可以将该模型拟合到一个或多个视频流的每一帧中,通过匹配从已知背景中提取的轮廓,或者通过匹配并跟踪遮挡边缘的位置(Gavrila和Davis 1996;Kakadiaris和Metaxas 2000;Bregler、Malik和Pullen 2004;Kehl和Van Gool 2006)。

实时骨骼追踪的一大突破是引入了用于互动视频游戏控制的Kinect消费级深度相机(Shotton,Fitzgibbon等,2011;Taylor,Shotton等,2012;Shotton,Girshick等,2013),如图13.28所示。在当前的骨骼追踪领域中,一些技术使用与2D测量相结合的2D模型,一些技术使用3D测量(范围数据或多视角视频)与3D模型结合(Baak,Mueller等,2011),还有一些技术利用单目视频直接推断和跟踪3D模型(Mehta,Sridhar等,2017;Habermann,Xu等,2019)。

也可以使用时间模型来改进周期性运动的跟踪,例如行走,通过分析关节角度随时间的变化(Polana和Nelson 1997;Seitz和Dyer 1997;Cutler和Davis 2000)。通过学习典型运动模式,可以提高这些技术的通用性和适用性,使用主成分分析。

图13.28 Kinect骨骼跟踪流程,包括逐像素的身体部位分类、身体关节假设,然后利用时间连续性和先验知识映射到骨骼(Shotton,Girshick等,2013)。该图摘自(Zhang,2012)©2012 IEEE。

消化(Sidenbladh、Black和Fleet2000;Urtasun、Fleet和Fua2006)。

概率模型。由于跟踪是一项极其困难的任务,因此通常会使用复杂的概率推断技术来估计被跟踪对象的可能状态。一种流行的方法称为粒子滤波(Isard和Blake 1998),最初是为跟踪人物和手部轮廓而开发的,如第7.3.1节所述。随后,该方法被应用于全身跟踪(Deutscher、Blake和Reid 2000;Sidenblad、Black和Fleet 2000;Deutscher和Reid 2005),并在现代跟踪器中继续使用(Ong、Micilotta等2006)。处理跟踪过程中固有的不确定性,还有其他方法,包括多假设跟踪(Cham和Rehg 1999)和膨胀协方差(Sminchisescu和Triggs 2001)。

图13.27c-d展示了一个复杂的时空概率图模型,称为松散肢体人,该模型不仅模拟了各肢体之间的几何关系,还模拟了它们可能的时间动态(Sigal,Bhatia等,2004)。各种肢体与时间点之间的条件概率从训练数据中学习得到,并使用粒子滤波进行最终的姿态推断。

自适应形状建模。全身建模和跟踪的另一个重要组成部分是将参数化形状模型拟合到视觉数据。正如我们在第13.6.3节(图13.25)中所见,大量注册的3D范围扫描可以用来创建可变形的形状和外观模型(Allen、Curless和Popovi 2003)。在此基础上,Anguelov、Srinivasan等人(2005)开发了一个名为scape(人物形状补全与动画)的复杂系统,该系统

首先获取不同姿势下大量人的范围扫描,然后对这些

图13.29使用参数化3D模型从单张图像估计人体形状和姿态(Guan,Weiss等人,2009)©2009 IEEE。

使用半自动标记放置的扫描。注册的数据集用于建模形状变化,作为个人特征和骨骼姿态的函数,例如,在某些关节弯曲时肌肉的突出(图13.29,上排)。由此产生的系统可用于形状补全,即从少量捕获的标记中恢复完整的3D网格模型,通过在形状和姿态空间中找到最佳模型参数来拟合测量数据。

因为该系统完全基于穿着紧身衣物的人的扫描数据构建,并使用参数化形状模型,所以无法处理穿着宽松衣物的人。B lan和Black(2008)通过估计同一人在多种姿态下观察到的视觉壳体内的身体形状来克服

这一限制,而Vlasic、Baran等人(2008)则调整了初始表面网格,使其更符合参数化形状模型,以更好地匹配视觉壳体。

虽然前面提到的身体拟合和姿态估计系统使用多个视角来估算身体形状,但Guan、Weiss等人(2009)则将一个人在自然背景下的单张图像拟合到一个人体形状和姿态模型中。通过手动初始化来估算大致的姿态(骨架)和高度模型,然后利用Grab Cut分割算法(第4.3.2节)对人的轮廓进行分割。接着,结合轮廓边缘线索和阴影信息(图13.29),对形状和姿态估计进行细化。最终生成的3D模型可用于创建新颖的动画。

图13.30使用Pavlakos、Choutas等人(2019)的SMPL-X模型从单张图像中提取全身、表情和手势特征。©2019 IEEE:(a)从单张图像中估计主要关节、骨骼、SMPL和SMPL-X模型;(b)SMPL-X对某些野外图像的定性结果。

虽然一些关于三维人体和姿态拟合的原始工作是使用SCAPE和BlendSCAPE (Hirshberg,Loper等,2012)模型完成的,但Loper、Mahmood等人(2015)开发的皮肤多个人线性模型(SMPL)引入了一种基于顶点的皮肤模型,能够准确表示自然人体姿势下的多种体型。该模型由静止姿态模板、姿态依赖混合形状和身份依赖混合形状组成,通过训练大量对齐的三维人体扫描数据构建而成。Bogo、Kanazawa等人(2016)展示了如何仅用单张图像通过他们的SMPLfy方法估计这个三维模型的参数。

在后续的研究中,罗梅罗、齐奥纳斯和布莱克(2017)通过增加一个具有关节和非刚性变形的手模型(MANO),扩展了这一模型。朱、西蒙和谢赫(2018)将SMPL身体模型与面部和手部模型结合,创建了能够追踪社交环境中多个人的3D弗兰克和亚当模型。帕夫拉科斯、肖塔斯等人(2019)利用数千个3D扫描数据训练了一个新的、统一的3D人体模型(SMPL-X),该模型扩展了SMPL,加入了性别特定的模型,并包括完全关节化的手和表情丰富的脸,如图13.30所示。他们还用变分自编码器(VAE)替换了SMPL中的高斯混合先验,并开发了一种新的VPoser先验,该先验是在马哈茂德、戈尔巴尼等人(2019)收集的大规模动作捕捉数据集上训练的。

在最近的研究中,Kocabas、Athanasiou和Black(2020)介绍了VIBE,这是一种利用AMASS进行人体姿态和形状视频推断的系统。Choutas、Pavlakos等人(2020)开发了一个他们称为ExPose(表达性姿态和形状回归)的系统,该系统可以直接从SMPL-X参数中回归出身体、面部和手部的参数。

RGB图像。最近的STAR(稀疏训练关节人体回归模型)(Osman,Bolkart,和Black2020)比SMPL参数少得多,并且消除了顶点之间的虚假长程相关性。它还包含依赖于身体姿态和BMI的形状依赖的姿态校正混合形状,通过额外训练10,000名男性和女性受试者的扫描数据来建模人类群体中更广泛的变化。GHUM和GHUML (Xu,Bazavan等2020)依赖于从深度变分自编码器构建的非线性形状空间来进行身体和面部变形,并使用归一化流表示来建模骨骼(身体和手)运动学。继续提高单张图像模型拟合精度和速度的最新论文包括Song,Chen,和Hilliges(2020)、Joo,Neverova,和Vedaldi(2020),以及Rong,Shiratori,和Joo(2020)。

活动识别。人类建模中最后广泛研究的主题是运动、活动和动作识别(Bobick 1997;Hu,Tan等2004;Hilton,Fua和Ronfard 2006)。常见的动作包括行走和跑步、跳跃、跳舞、捡起物品、坐下和站起来以及挥手。关于这些主题的论文包括Robertson和Reid(2006)、Sminchisescu,Kanaujia和Metaxas(2006)、Weinland,Ronfard和Boyer(2006)、Yilmaz和Shah(2006)以及Gorelick,Blank等(2007),还有我们在第6.5节讨论的更近期的视频理解论文,例如Carreira和Zisserman(2017)、Tran,Wang等(2018)、Tran,Wang等(2019)、Wu,Feichtenhofer等(2019)和Feichtenhofer,Fan等(2019)。

13.7恢复纹理贴图和反照率

获取物体或人物的三维模型后,建模的最后一步通常是恢复纹理贴图以描述物体表面的外观。这首先需要建立一个参数化方法,将(u;v)纹理坐标作为三维表面位置的函数。一种简单的方法是为每个三角形(或一对三角形)关联一个单独的纹理贴图。更节省空间的技术包括将表面解包到一个或多个贴图上,例如使用细分网格(第13.3.2节)(Eck,DeRose等,1995年)或几何图像(第13.3.3节)(Gu,Gortler,和Hoppe,2002年)。

一旦每个三角形的(u;v)坐标被确定,透视投影就完成了。

从纹理(u;v)映射到图像j的像素(uj;vj)坐标的方程可以是

通过将仿射变换(u,v)→(X,Y,Z)与透视同构(X,Y,Z)→(uj,vj)连接获得(Szeliski和Shum 1997)。然后可以重新采样并存储(u,v)纹理图的颜色值,或者使用投影纹理映射将原始图像本身用作纹理源(OpenGL-ARB 1997)。

当有多个源图像可用于外观恢复时,情况变得更加复杂,这是常见的情况。一种方法是使用视图依赖纹理贴图(第14.1.1节),其中每个多边形面根据虚拟摄像机、表面法线和源图像之间的角度选择不同的源图像(Debevec,Taylor,和Malik 1996;Pighin,Hecker等1998)。另一种方法是为每个表面点估计完整的表面光场(Wood,Azuma等2000),如Section14.3.2所述。

在某些情况下,例如在传统3D游戏中使用模型时,最好在预处理过程中将所有源图像合并成一个单一的连贯纹理图(Weinhaus和Devarajan1997)。理想情况下,每个表面三角形应选择其最直接看到的地方(垂直于法线)的源图像,并且分辨率要与纹理图的最佳匹配。这可以表述为一个图割优化问题,其中平滑项鼓励相邻三角形使用相似的源图像,然后通过混合来补偿曝光差异(Lempitsky和Ivanov2007;Sinha、Steedy等人2008)。通过显式建模源图像之间的几何和光度错位,可以获得更好的结果(Shum和Szeliski2000;Gal、Wexler等人2010;Waechter、Moehrle和Goesele2014;Zhou和Koltun2014;Huang、Dai等人2017;Fu、Yan等人2018;Sch ps、Sattler和Pollefeys2019b;Lee、Ha等人2020)。“神经”纹理图表示也可以作为RGB颜色场的替代方案(Oechsle、Mescheder等人2019;Mihajlovic、Weder等人2021)。Zollh fer、Stotko等人(2018,第4.1节)更详细地讨论了相关技术。

这类方法在照明相对于物体固定时,即相机围绕物体或空间移动时,能够产生良好的效果。然而,当照明具有强烈的定向性,且物体相对于这种照明移动时,可能会出现强烈的阴影效应或镜面反射,这会干扰纹理(反照率)图的可靠恢复。在这种情况下,最好通过建模光源方向并估计表面反射特性来显式地消除阴影效应(第13.1节),同时恢复纹理图(佐藤和池内1996;佐藤、惠勒和池内1997;余和马利克1998;余、德贝韦克等人1999)。图13.31展示了这种方法的一个结果,在此过程中首先移除镜面反射,同时估计

2当表面以倾斜视角观察时,可能需要将不同的图像混合在一起以获得最佳分辨率(Wang,Kang等,2001)。

图13.31估算扫描3D模型的漫反射率和反射率参数(Sato、Wheeler和Ikeuchi,1997)©1997 ACM:(a)投射到模型上的输入图像集;(b)完整的漫反射(反照率)模型;(c)从反射率模型渲染出包括镜面成分的内容。

然后通过在Torrance-Sparrow反射模型(2.92)中估计镜面反射分量ks,重新引入了反射率成分(反照率)。

13.7.1估算BRDF

一种更为雄心勃勃的方法是针对视图依赖外观建模的问题,为物体表面的每个点估计一个通用的双向反射分布函数(BRDF)。Dana、van Ginneken等人(1999)、Jensen、Marschner等人(2001)和Lensch、Kautz等人(2003)提出了不同的技术来估计这些函数,而Dorsey、Rushmeier和Sillion(2007)以及Weyrich、Lawrence等人(2009)则提供了关于BRDF建模、恢复和渲染主题的综述。

正如我们在第2.2.2(2.82)节中所看到的,BRDF可以写成

fr (θi , φi , θr , φr ; λ),                                           (13.6)

其中(θi,φi)和(θr,φr)是入射光线i和反射光线r的方向角

与图2.15所示的局部表面坐标系(x,y,)一起制作。当进行模态分析时

为了获得物体的外观,而不是材料的一块的外观,我们需要在物体表面的每一点(x,y)处估计这个函数,这给出了空间变化的BRDF或SVBRDF (Weyrich,Lawrence等,2009),

fv (x,y, θi , φi , θr , φr ; λ).                                       (13.7)

如果要对次表面散射效应进行建模,例如,通过石膏等材料的长程光传输,则使用八维双向散射-表面反射分布函数(BSSRDF),

fe(xi,yi,θi,φi,xe,ye,θe,φe;λ),                                   (13.8)

图13.32基于图像的外观和详细几何重建(Lensch,Kautz等,2003)©2003 ACM。(a)使用分裂聚类重新估计外观模型(BRDF)。(b)为了建模详细的、空间变化的外观,每个光子体被投影到由聚类材料形成的基底上。

其中esubscript现在代表发射而不是反射的光方向。

Weyrich、Lawrence等人(2009)对这些及相关主题进行了很好的综述,包括基本测光、BRDF模型、使用星等反射测量的传统BRDF获取方法,即精确测量视角和反射率(Marschner、Westin等人,2000;Dupuy和Jakob,2018),多路照明(Schechner、Nayar和Belhumeur,2009),皮肤建模(Debevec、Hawkins等人,2000;Weyrich、Matusik等人,2006),以及基于图像的获取技术,这些技术能够同时从多张照片中恢复物体的三维形状和反射率。

一个很好的例子是Lensch、Kautz等人(2003)开发的系统,他们估计局部变化的BRDF并使用表面法线的局部估计来优化其形状模型。为了构建模型,他们首先将每个表面点关联到一个包含三维位置、表面法线和一组稀疏辐射样本的光子体。接下来,他们利用拉福图恩反射模型(Lafortune,Foo等人1997)和分裂聚类方法(图13.32a),将这些光子体聚类成具有共同属性的材质。最后,为了建模详细的时空变化外观,每个光子体(表面点)被投影到聚类外观模型的基础之上(图13.32b)。Ma、Hawkins等人(2007)描述了一种更精确的法线估计系统,该系统使用偏振光照。

最近的方法用于恢复空间变化的BRDF(SVBRDF),要么从RGB-D扫描仪开始(Park、Newcombe和Seitz 2018;Schmitt、Donne等人2020),要么使用闪光/非闪光图像对(Aittala、Weyrich和Lehtinen 2015),或者采用深度学习方法同时估计表面法线和外观模型(Li、Sunkavalli和Chan-draeker 2018;Li、Xu等人2018)。更先进的系统还可以从测距扫描序列中估计形状和环境光照(Park、Holynski和Seitz 2020)或

单目图像(Boss,Jampani等,2020;Li,Shafiei等,2020;Chen,Nobuhara和Nishino,2020)甚至对这些场景进行重新照明(Bi,Xu等,2020a,b;Sang和Chandraker,2020;Bi,Xu等,2020c)。关于使用RGB-D摄像头捕捉物体的三维形状和外观的技术,可以参见Zollh fer,Stotko等(2018)的最新报告。

虽然本节中讨论的大多数技术需要大量的视图来估计表面特性,但一个有趣的挑战是将这些技术从实验室带到现实世界,并将它们与常规和基于互联网照片图像的建模方法结合起来。

13.7.2应用:三维模型采集

本章中描述的从多张图像构建完整3D模型并恢复其表面外观的技术,开辟了全新的应用领域,这些应用通常被称为3D摄影。Pollefeys和Van Gool(2002)以及Pollefeys、Van Gool等人(2004)对这类系统进行了很好的介绍,包括特征匹配、运动结构恢复、密集深度图估计、3D模型构建和纹理图恢复等处理步骤。Vergauwen和Van Gool(2006)以及Moons、Van Gool和Vergauwen(2010)描述了一个完整的基于网络的系统ARC3D,该系统能够自动执行所有这些任务。后者不仅深入综述了整个领域,还详细介绍了他们的端到端完整系统。

一个较新的商业摄影测量建模系统是Pix4D,该系统可用于物体和场景的捕捉。其网站展示了一个精彩的例子,即通过常规照片和航拍无人机照片重建的三维纹理映射城堡。智能手机的普及使得休闲3D摄影成为可能,例如Hedman、Alsisan等人(2017年)、Hedman和Kopf(2018年)以及Kopf、Matzen等人(2020年)的研究,这些内容将在第14.2.2节中详细描述。

替代完全自动化系统的另一种方法是让用户参与其中,这有时被称为交互式计算机视觉。早期的一个例子是由德贝韦克、泰勒和马利克(1996)开发的Fac¸adearchi-tectural建模系统。范登亨格尔、迪克等人(2007)描述了他们的VideoTrace系统,该系统能够自动进行点跟踪和从视频中恢复3D结构,然后允许用户在生成的点云上绘制三角形和表面,并且可以交互式地调整模型顶点的位置。辛哈、斯蒂迪等人(2008)描述了一个相关的系统,该系统使用匹配的消失点。

在多张图像中(图7.50)提取点以推断三维线的方向和平面法向量。这些信息随后用于指导用户绘制轴对齐的平面,这些平面会自动拟合到恢复的三维点云上。Zebe描述了这些想法的全自动变体——

din、Bauer等人(2008)、Furukawa、Curless等人(2009a)、Furukawa、Curless等人(2009b)、Mi

u k和Ko eck(2009)以及Sinha、Steedly和Szeliski(2009)。

随着这些技术的复杂性和可靠性的不断提高,我们可以期待看到更多用户友好的图像照片级真实感3D建模应用(练习13.8)。

13.8附加阅读材料

形状从阴影中提取是计算机视觉中的经典问题之一(Horn 1975)。该领域的代表性论文包括霍恩(1977)、池内和霍恩(1981)、彭特兰(1984)、霍恩和布鲁克斯(1986)、霍恩(1990)、谢利斯基(1991a)、曼奇尼和沃尔夫(1992)、杜皮斯和奥利恩西斯(1994)以及福阿和勒克莱尔(1995)。霍恩和布鲁克斯(1989)编辑的论文集是这一主题的重要信息来源,特别是关于变分方法的章节。张、蔡等人(1999)的综述不仅回顾了这些技术,还提供了一些比较结果。

伍德汉姆(1981)撰写了光度立体的开创性论文。纹理形状技术包括威特金(1981)、池内(1981)、布洛斯坦和阿胡贾(1987)、格林(1992)、马利克和罗森霍尔

茨(1997)、刘、柯林斯和辛(2004)、刘、林和海斯(2004)、海斯、勒奥德亚努等人(2006)、林、海斯等人(2006)、洛贝和福赛思(2006)、怀特和福赛思(2006)、怀特、克兰和福赛思(2007)以及帕克、布罗克赫斯特等人(2009)。关于从失焦深度的优秀论文和书籍由彭特兰(1987)、奈亚尔和中川(1994)、奈亚尔、渡边和野口(1996)、渡边和奈亚尔(1998)、乔杜里和拉贾戈帕兰(1999)以及法瓦罗和索托(2006)撰写。沃尔夫、沙弗和希利编辑的《形状恢复》一书中讨论了从各种光照效果中恢复形状的其他技术,包括反射(奈亚尔、池内和卡纳德1991)。阿克曼和戈塞勒(2015)对光度立体进行了更近期的综述,最近的论文包括洛戈塞蒂、梅卡和奇波拉(2019)、黑夫纳、叶等人(2019)和桑托、韦克特和松下(2020)。

主动测距系统,使用激光或自然光照明投射到场景中,已被Besl(1989)、Rioux和Bird(1993)、Kang、Webb等人(1995)、Curless和Levoy(1995)、Curless和Levoy(1996)、Proesmans、Van Gool和Defoort(1998)、Bouguet和Perona(1999)、Curless(1999)、Hebert(2000)、Iddan和Ya- hav(2001)、Goesele、Fuchs和Seidel(2003)、Scharstein和Szeliski(2003)、Davis、Ra-

马莫思蒂和鲁辛凯维奇(2003),张、柯尔斯和塞茨(2003),张、斯纳维利等人(2004),以及穆恩斯、范古尔和维尔高温(2010),还有最近的综述文章,如张(2018)和池内、松下等人(2020)。单个范围扫描可以通过使用3D对应和距离优化技术进行对齐,例如迭代最近点及其变体(贝斯和麦凯1992;张1994;谢利斯基和拉瓦尔1996;约翰逊和康1997;戈德、兰加拉詹等人1998;约翰逊和赫伯特1999;普尔1999

;大卫、德门顿等人2004;李和哈特利2007;恩奎斯特、约瑟夫森和卡尔2009;波默勒、科拉斯和西格沃特2015;鲁辛凯维奇2019)。一旦它们被对齐,范围扫描可以使用建模表面到体积样本点的有符号距离的技术进行合并(霍普、德罗斯等人1992;柯尔斯和莱沃伊1996;希尔顿、斯托达特等人1996;惠勒、佐藤和池内1998;卡兹丹、博利索和霍普2006;伦皮茨基和博伊科夫2007;扎克、波克和Bischof2007b;Zach2008;Newcombe,伊扎迪等人2011;周、米勒和科尔图恩2013;纽科姆、福克斯和塞茨2015;佐尔费尔、斯托特科等人2018)。

一旦构建完成,3D表面可以使用多种三维表示方法进行建模和操作,这些方法包括三角网格(Eck,DeRose等,1995;Hoppe,1996),样条曲线(Farin,1992;Lee,Wolberg和Shin,1997;Farin,2002),细分曲面(Stollnitz,DeRose和Salesin,1996;Zorin,Schr der和Sweldens,1996;Warren

和Weimer,2001;Peters和Reif,2008),以及几何图像(Gu,Gortler和Hoppe,2002)。或者,它们也可以表示为带有局部方向估计的点样本集合(Hoppe,DeRose等,1992;Szeliski和Tonnesen,1992;Turk和O‘Brien,2002;Pfister,Zwicker等,2000;Alexa,Behr等,2003;Pauly,Keiser等,2003;Diebel,Thrun,

以及Br nig2006;Guennebaud和Gross2007;Guennebaud、Germann和Gross2008;

Oztireli、Guennebaud和Gross2008;Berger、Taglia-sacchi等人2017)。它们也可以使用在规则或不规则(八叉树)体网格上采样的隐式内外特征或有符号距离函数进行建模(Lavall e和Szeliski1995;Szeliski和Lavall e1996

;Frisken、Perry等人

2000;Dinh、Turk和Slabaugh2002;Kazhdan、Bolitho和Hoppe2006;Lempitsky和Boykov2007;Zach、Pock和Bischof2007b;Zach2008;Kazhdan和Hoppe2013)。

关于基于模型的三维重建文献非常丰富。对于建筑和城市场景的建模,已经开发出了交互式和全自动系统。专门讨论大规模三维场景重建的一期期刊(朱和卡纳德2008)是很好的参考来源,罗伯逊和奇波拉(2009)对一个完整的系统进行了精彩的描述。更多额外的参考文献可以在第13.6.1节中找到。

面部和全身建模与跟踪是计算机视觉领域一个非常活跃的分支,拥有自己的会议和研讨会,例如国际自动

面部和手势识别(FG)以及IEEE面部和手势分析与建模研讨会(AMFG)。关于3D人脸建模和跟踪的两篇最新综述论文分别是Zollh fer等人(2018年)和Egger、Smith等人(2020年),而关于全身建模

和跟踪的综述则包括Forsyth、Arikan等人(2006年)和Moeslund、Hilton,

以及Kr ger(2006)和Sigal、Balan和Black(2010)。

关于从多张彩色和RGB-D图像中恢复纹理图的一些代表性论文包括Gal、Wexler等人(2010年)、Waechter、Moehrle和Goesele(2014年)、Zhou和Koltun(2014年)以及Lee、Ha等人(2020年),还有Zollh fer、Stotko等人(2018

年,第4.1节)。更复杂的恢复空间变化BRDF的过程则由Dorsey、Rushmeier和Sillion(2007年)及Weyrich、Lawrence等人(2009年)的综述文章涵盖。最近能够使用较少图像和RGB-D图像实现这一目标的技术包括Aittala、Weyrich和Lehtinen(2015年)、Li、Sunkavalli和Chandraker(2018年)、Schmitt、Donne等人(2020年)以及Boss、Jampani等人(2020年)的研究,还有Zollh fer、Stotko等人(2018年

)的综述文章。

13.9练习

例13.1:从焦点中获得形状。使用数码单反相机设置为手动对焦(或选择允许程序对焦控制的相机)拍摄一系列对焦图像,然后恢复物体的深度。

1.拍一些校准图像,例如棋盘格图像,以便计算失焦量和聚焦设置之间的映射关系。

2.尝试一个正面平行平面目标和一个倾斜的目标,以便覆盖传感器的工作范围。哪一个效果更好?

3.现在将一个真实对象放入场景中,并执行类似的聚焦扫描。

4.对于每个像素,计算局部锐度,并拟合聚焦设置上的抛物线曲线,以找到最聚焦的设置。

5.将这些焦点设置映射到深度,并将结果与真实值进行比较。如果你使用的是已知的简单对象,如球体或圆柱体(例如球或易拉罐),则

很容易测量它的真实形状。

6.(可选)看看你是否能从两三个焦点设置中恢复深度图。

7.(可选)使用液晶投影仪将人工纹理投射到场景上。使用一对摄像机比较焦点形状和立体技术形状的准确性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值