CNN-PS: CNN-Based Photometric Stereo for General Non-convex Surfaces 2018ECCV

最新推荐文章于 2024-08-16 08:03:38 发布

qq_37626251

最新推荐文章于 2024-08-16 08:03:38 发布

阅读量1.2k

点赞数 1

本文链接：https://blog.csdn.net/qq_37626251/article/details/103652145

版权

本文提出了一种新的端到端CNN光度立体算法，用于处理非凸表面和全局光照效果。通过将非结构化的光度立体输入转化为二维观测图，结合各向同性约束的旋转伪不变性，网络能够学习到光度立体输入与法向量的关系。在合成和真实数据集上的实验表明，该方法在恢复非凸表面时优于传统BRDF方法，尤其是在DiLiGenT数据集上表现最佳。此外，创建的CyclesPS数据集有助于训练网络以模拟复杂的全局光传播效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

大多数传统的光度立体算法反过来解决了基于BRDF的图像形成模型。然而，由于在非凸表面上的全局光传播，实际的成像过程通常要复杂得多。本文提出了一种光度立体网络，该网络可以直接学习光度立体输入与场景表面法向之间的关系。为了处理无序输入，任意数量的输入图像问题，我们将所有输入数据合并到中间视图（称为观测图），该中间图具有固定的形状，可以馈入CNN。
为了改善训练和预测，我们考虑了从各向同性约束得出的观测图的伪旋转不变性。为了训练网络，我们创建了一个基于物理渲染器生成的合成光度立体数据集，因此考虑了全局光传播的效果。我们在合成和真实数据集上的实验结果表明，我们的方法优于传统的基于BRDF的光度立体算法，尤其是当场景高度非凸时。
非凸表面：
我理解的就是非凸集合的定义，把一个对象看做一个很多个点集的集合，如果任意两点的连线依然在这个集合之内，那就说明是凸集合，典型的圆，反之，就是非凸集合，对物体表面来说就是非凸表面了。

1.介绍

在3-D计算机视觉问题中，输入数据通常是非结构化的（即，输入图像的数量是变化的并且图像是无序的）。一个很好的例子是多视图立体问题，其中场景几何结构是从非结构化多视图图像中恢复的。除了一些结构化的问题（例如双目立体视觉[1]和两个视角的SfM [2]，它们输入图像的数量始终固定）之外，由于这种非结构性，从多个图像进行的3-D重建较少依赖于基于监督学习的算法。但是，深度卷积神经网络（CNN）的最新进展促使研究人员使用深度神经网络解决非结构化3D计算机视觉问题。例如，Kar等人的最新著作文献[3]提出了一种用于多视点立体视觉的端到端学习系统。[4]提出了一种基于学习的表面反射率估计，该估计来自多个RGB-D图像。两项工作都聪明地将所有非结构化输入合并为结构化的中间表示形式（即3D特征网格[3]和2D半球形图像[4]）。

光度立体是另一个3D计算机视觉问题，其输入是非结构化的，其中场景的表面法线从不同光照下的外观的变化中恢复。光度立体算法通常解决了基于双向反射分布函数（BRDF）的逐点图像形成模型的逆问题，就是从求I变成已知I反解N。虽然有效，但是基于BRDF的图像形成模型通常无法解决全局照明效果，例如阴影和相互反射，这对于恢复非凸表面通常是有问题的。一些算法尝试使用鲁棒的outliers抑制来抑制非朗伯效应[5-8]，但是当非朗伯观测值占主导地位时，估计会失败。由于光和表面的多重相互作用很难以数学上可处理的形式进行建模，因此不可避免地会出现这种限制。

为解决此问题，本文提出了一种基于端到端CNN的光度立体算法，该算法无需物理的建模图像形成过程即可学习表面法线及其外观之间的关系。为了获得更好的可扩展性，我们的方法仍然是像素化的，而且没有继承传统的鲁棒方法[5-8]，这意味着我们学习了自动“忽略”全局照明效果并从observation中的“inliers”估算表面法线的网络。也就是本文在学习过程中，会自动把非郎伯效应给视为离群值忽略掉。为了实现这一目标，我们将在尽可能多的输入合成样式下训练我们的网络，这些输入的样式会因全局效果而“损坏”。在不同的材质和光照条件下，使用不同的复杂对象渲染图像。

我们的挑战是将深度神经网络应用于输入是非结构化的光度立体问题。与最近的工作[3,4]类似，我们将所有的光度立体数据合并到一个称为“observation map”的中间表示形式，该图像具有固定的形状，因此自然地被馈送到标准的CNN。与许多光度学立体算法一样，我们的工作也主要涉及各向同性材料，这些材料的reflections在绕表面法线旋转时不变。我们将表明，可以通过观察图的伪旋转不变性的形式利用这种各向同性，既增加输入数据又减少预测误差。为了训练网络，我们利用基于物理学的Cycles渲染器[9]来模拟复杂的全局光传播，从而创建了合成的光度立体数据集（CyclesPS）。为了涵盖各种现实世界的材料，我们采用了迪士尼原则上的BSDF [10]，该标准是为艺术家通过控制少量参数来渲染各种场景而提出的。

各向同性：指物体的物理、化学等方面的性质不会因方向的不同而有所变化的特性，即某一物体在不同的方向所测得的性能数值完全相同，亦称均质性。这里我理解的就是从不同方向观察一个物体，表面情况应该是一致的。

我们在DiLiGenT光度立体数据集[11]上评估我们的算法，该数据集是包含图像和已校准照明方向的真实基准数据集。我们将我们的方法与传统的光度学立体算法进行了比较[5–8,12–21]，并表明我们基于端到端学习的算法最成功地恢复了所有相关算法中的非凸，非朗伯曲面。
总的贡献如下：
（1）首先，我们提出了一种已校准的基于CNN的监督光度立体算法，该算法将非结构化图像和照明信息作为输入。
（2）我们提出了一个合成的光度立体数据集（CyclesPS），并仔细注入了全局照明效果，例如cast shadow，相互反射。
（3）我们的广泛评估表明，在各种常规算法中，尤其是当表面高度非凸且非朗伯时，我们的方法在DiLiGenT基准数据集[11]上表现最佳。
此后，我们将基于对光度立体问题的经典假设（即固定位置，线性正交摄影机（小孔成像摄像机）和已知的定向照明）。

2.相关工作

讲什么是图像形成模型，ρ（）就是BRDF函数，
现实世界对象的各种外观可以通过BRDFρ进行编码，BRDFρ将观察到的强度Ij与表面法线n∈R3，第j个入射照明方向lj∈R3，光照强度Lj∈R和出射方向v∈R3相关联，通过
在这里插入图片描述
其中max（nT lj，0）解释了attached shadow，Ej是模型的附加误差。等式（1）通常被称为图像形成模型。
大多数光度立体算法采用ρ的特定shape，并从来自m个不同光照条件下（j∈1，···，m）的观察值集合通过反求解方程（1）来恢复场景的表面法线。
通常，所有未用BRDF表示的效果（图像噪声，cast shadow，相互反射等）都放在Ej中。
注意，当BRDF为Lambertian且去除了附加误差时，它简化为传统的Lambertian图像形成模型[12]。