摘要
本文提出了一种在没有外部监督的情况下,从原始单视角图像中学习3D可变形对象类别的方法。自动编码器将每个输入图像分解为深度、反照率、视点和光照。为了在没有监督的情况下解开这些组件,本文使用了这样一个事实,即许多对象类别至少在原则上具有对称结构。关于照明的推理允许本文利用底层对象的对称性,即使外观由于阴影而不对称。此外,本文通过预测对称概率图来对可能对称但不一定对称的对象进行建模,并与模型的其他组件进行端到端的学习。实验表明,该方法能够在没有任何监督和先验形状模型的情况下,从单幅图像中非常准确地恢复人脸、猫脸和汽车的三维形状。在基准测试中,与在2D图像对应级别使用监督的另一种方法相比,本文证明了更高的准确性。
1. 引言
本文在两个具有挑战性的条件下研究这个问题。第一个条件是没有可用的2D或3D标签信息。没有外部监督的学习消除了收集图像注释的瓶颈。第二个条件是,该算法必须使用不受约束的单视图图像集合。从单视图图像中学习是有用的,尤其是对于可变形对象。因此,本文的学习算法摄取了一个可变形对象类别的多个单视图图像,并产生一个深度网络作为输出,该深度网络可以估计给定单个图像的任何实例的3D形状,如图1所示。
然而,具体的对象实例实际上从来都不是完全对称的,无论是形状还是外观。由于姿势或其他细节的变化,形状是非对称的。即使形状和反照率都是对称的,由于光照不对称,外观也可能不是对称的。
首先,本文明确地建立光照模型来利用底层的对称性,模型可以利用光照作为恢复形状的额外线索。其次,本文扩充模型,以推理对象中潜在的不对称。为了做到这一点,模型预测一个置信图以及其他因素,其中置信图包含一个给定像素在图像中有一个对称对应的概率。
2. 方法
图2. 图像几何自动编码
给定对象类别的图像的无约束集合,本文的目标是学习模型φ,该模型φ接收对象实例的图像作为输入,并将其分解为3D形状、反照率、光照和视点作为输出,如图2所示。
为了在没有任何组件监督的情况下学习这种分解,本文利用了许多对象类别是双边对称的这一事实。然而,对象实例的外观从来都不是完全对称的。不对称产生于形状变形、不对称反照率和不对称光照。本文采取两种措施来考虑这些不对称。首先,本文明确地对不对称光照建模。其次,本文的模型还为输入图像中的每个像素估计一个置信度得分,该得分解释了该像素在图像中具有对称对应物的概率。
2.1 Photo-geometric autoencoding
照明函数Λ根据深度图d、光线方向l和反照率a生成物体的一个版本。视点w表示规范视图和实际输入图像I的视点之间的变换。然后,重投影函数Π模拟视点变化的效果,并生成给定规范深度d和阴影规范图像Λ(a,d,l)的图像I^。
2.2 Probably symmetric objects
利用对称性进行三维重建需要识别图像中的对称对象点。这里本文含蓄地这样做,假设深度和反照率,在一个规范框架中重建时,关于一个固定的垂直平面对称。
然后,本文考虑两个鼓励I≈I^和I≈I^’的重构损失。既然两者损失相当,就很容易平衡,共同训练。最重要的是,这种方法使本文能够很容易地从概率角度对对称性进行推理,损失如下所述。
2.3 Perceptual loss
σ(k)和σ(k)’是由本文的模型预测的附加置信度图。在实践中,本文发现仅使用VGG16的relu3_3一层的特征对于本文的目的来说已经足够好了。本文将感知损失的符号缩短为Lp。
3. 实验
3.1 Comparison with baselines
表1. 与基线的比较
3.2 Ablation
表2. 消融研究
在表中,第(1)行显示了完整模型的性能。行(2)不翻转反照率。因此,不鼓励反照率在规范空间中是对称的,这不能使用来自对称的线索来恢复形状。行(3)不会翻转深度,效果与行(2)类似。第(4)行预测阴影贴图,而不是从深度和光线方向计算。这也严重损害了性能,因为阴影不能用作恢复形状的提示。行(5)关闭感知损失,这导致图像质量下降,从而导致重建结果下降。为了更好地理解置信度图的效果,本文特别使用扰动来评估部分不对称的人脸。
3.3 Asymmetric perturbation
表3. 不对称扰动为了证明本文的不确定性模型允许模型处理不对称,本文在这些扰动图像上训练本文的模型,有或没有置信图,并在表3中报告结果。没有置信图,模型总是预测对称反照率,几何重建经常失败。根据本文的置信度估计,该模型能够正确地重建不对称的人脸,与未受干扰的情况相比,精确度损失很小。
3.4 3D keypoint depth evaluation
表4. 3DFAW关键点深度评估DepthNet使用2D关键点注释作为输入,尽管如此,本文还是比较了由DepthNet和本文的方法获得的这些稀疏点的重建质量。本文使用2D关键点位置对本文的预测深度进行采样,然后评估相同的度量。
在表4中,本文报告了他们论文的结果,以及本文从他们的公开实现中获得的稍微改进的结果。本文还利用深度信息标签训练的GAN判别器,对监督模型进行了评估。本文的方法仍然优于DepthNet,并达到接近监督的性能。
4. 结论
本文可以从对象类别的无约束单视图图像集合中学习可变形对象类别的3D模型。这是基于没有任何监督的重建损失进行训练的,类似于自动编码器。对称和光照是形状的强有力的线索,有助于模型收敛到有意义的重建。本文的模型优于当前使用2D关键点监督的最先进的3D重建方法。使用深度图对于诸如具有粗略凸起形状和自然规范视点的面的对象来说是足够的,对于更复杂的对象,可以使用多网格或体素图。