Colmap论文之一：Pixelwise View Selection for Unstructured Multi-View Stereo

最新推荐文章于 2024-07-31 00:22:49 发布

Gloamirror

最新推荐文章于 2024-07-31 00:22:49 发布

阅读量617

点赞数

文章标签： 1024程序员节

本文链接：https://blog.csdn.net/Gloamirror/article/details/133993357

版权

标题：Pixelwise View Selection for Unstructured Multi-View Stereo

作者：

Johannes L. Schönberger（ETH Zürich）
Enliang Zheng（UNC Chapel Hill）
Marc Pollefeys（ETH Zürich 和 Microsoft）
Jan-Michael Frahm（UNC Chapel Hill）

摘要：

这项工作介绍了一个针对非结构化图像集合的Multi-View Stereo (MVS) 系统，主要用于鲁棒和高效的密集建模。这个系统的核心贡献包括：

深度和法线信息的联合估计
使用光度和几何先验进行像素级视图选择
同时进行细化和基于图像的深度与法线融合的多视角几何一致性项经过大规模的互联网照片集合实验，表明这种方法在准确性、完整性和效率方面均达到了业界领先的水平。

1. 引言：

大规模的3D重建从互联网照片中已经经历了巨大的进化。虽然这种技术在稀疏建模（使用Structure-from-Motion, SfM）和密集建模（使用Multi-View Stereo, MVS）中都有所应用，但密集场景的表示在许多应用中是至关重要的，如图像分类、图像基渲染、定位等。尽管MVS被广泛应用，但要在非受控的环境中估计精确、完整和美观的密集模型仍然是一个挑战。密集的像素级对应关系搜索是立体声方法的核心问题，而在已知的视图几何和光照的控制环境中，恢复正确的对应关系也是一个挑战。在非受控的环境中，尤其是当输入来源于众包图片时，这个任务变得尤为关键。

为了解决这些挑战，提出了一个新的方法，利用了Zheng等人的提议，核心贡献包括：

在改进的PatchMatch采样方案中嵌入的像素级法线估计。
使用三角测量角、事故角和图像分辨率基于几何优先权的像素级视图选择。
“时间”平滑项。
通过双边光度一致性适应性窗口支持，以改善遮挡边界的行为。
同时进行深度/法线估计的多视角几何一致性项。
可靠的深度/法线过滤和融合。

这些技术进一步允许直接从生成的点云中提取模型。此外，这个方法在Middlebury和Strecha等基准测试上实现了最先进的结果。为了进一步展示其优势，还处理了世界范围内的SfM模型。此外，这个算法作为开源项目发布，可以在GitHub上找到。

这篇引言不仅概述了现有的技术和其局限性，还明确指出了该方法的核心贡献和其在各种基准测试中的优势。

2. 相关工作：

首先强调了立体方法在准确性、完整性、可扩展性和基准测试方面的进步，从最小的双视图立体设置到多视图方法。特别提到了多视图立体方法利用多个视图来克服固有的遮挡问题，并强调了视图选择在多视图立体效果中的重要性。例如，Kang等人通过选择与像素视图对齐程度最好的最佳视图来启发式地选择视图。Strecha等人通过在马尔科夫随机场中为像素级视图选择结合场景可见性和局部深度平滑假设来概率地建模。

接着，例如，Goesle等人提出了一个明确针对从众包图片（crowd-sourced images）【是指由普通用户或社区成员提供的图片，而不是由专业组织或特定实体提供的。】中重建的方法，首先选择相机群集以适应表面，然后调整它们的分辨率以适应最小的公共分辨率。为了深度估计，他们使用四个最适合每个像素的图像。而文中的方法允许在数据集范围内进行像素级的视图选择，避免了这种预先选择。此外，还提到了其他几种用于众包图像的大规模稠密重建和融合方法，如Furukawa等人和Gallup等人，他们都执行视图的启发式预选，导致了减少的完整性和准确性。

这部分还提到了如何使用PatchMatch在立体匹配中考虑表面法线。其他方法提出估计每个像素的法线来补偿成本函数的失真，但与这些方法不同，文章中的方法不仅仅局限于考虑光度和几何约束。此外，该方法通过概率地建模单个观测光线对可靠表面恢复的贡献来提高深度和法线估计的准确性。

总之，“相关工作”部分提供了多视图立体方法、视图选择、深度图融合和其他相关研究的综述。

3. 联合视图选择和深度估计

这部分专注于联合视图选择和深度估计的方法。在某些情况下，两个补丁- Patch 的颜色分布是不相关的，它们之间的颜色相似性是通过 NCC - 正交同构变形的标准化交叉相关性来测量的。推断深度和遮挡的问题转化为为参考图像中的所有像素恢复深度和遮挡指标。为了解决这一复杂的问题，引入了变分推理框架。这个方法迭代地求解，利用交错的行/列传播策略。虽然这种方法的计算成本可能很高，但可以通过蒙特卡洛方法来近似最佳的视图选择，从而提高效率。

颜色分布和相似性度量：在遮挡的情况下，两个补丁的颜色分布是不相关的，遵循一个给定的均匀分布。 $P^{_{l}^{m}}$ 描述了参考补丁和源补丁之间的颜色相似性。这种相似性是通过正交同构变形的标准化交叉相关性（NCC）来测量的。
状态转移矩阵：描述了从前一个像素到当前像素的参考补丁在源图像中的可见性。其中引入了一个参数γ，该参数鼓励空间上平滑的遮挡指示。
推断问题：给定参考和源图像，推断问题则转化为为参考图像中的所有像素恢复深度θ和遮挡指标Z。这个问题是从后验分布P(Z,θ|X)中进行的，其中X是指观测到的数据，而P(θ)是一个均匀先验。
贝叶斯方法的计算难度：尽管可以通过计算联合概率P(X, Z, θ)然后对P(X)进行归一化来求解，但这种方法在计算上是不可行的。
变分推理：为了解决上述问题，Zheng等人使用了变分推理理论来开发一个框架。这是一种通用期望最大化（GEM）算法的变体。其中PatchMatch-inspired采样用于θ的推断。
深度推断：方法迭代地解决了固定的θ的Z问题，反之亦然，使用交错的行/列传播。
计算成本：由于需要多次计算NCC，所以当M很大时，PatchMatch的计算成本会很高。
概率和近似：Pl(m)表示源图像m中的补丁与参考补丁相似的概率。而q(Z)是真实后验P(Z)的近似。
源图像选择：不是所有源图像都对深度推断有信息。因此，Zheng等人提议使用蒙特卡洛方法来近似最佳的视图选择。

总结：这部分描述了一个联合视图选择和深度估计的方法，它利用变分推理和蒙特卡洛近似来高效地估计参考图像中的深度和遮挡情况。

4. Algorithm

法线估计：
- 文章提到，使用fronto-parallel homographies将引入斜面结构的伪影。为了解决这个问题，作者估计了图像的深度和法线。
- 没有关于场景的先验知识时，作者假设一个均匀的先验来推断法线。
- 通过变化的深度和法线，色彩相似性现在基于倾斜的而不是fronto-parallel homographies。
- 使用PatchMatch的方法，作者提出了一种有效的传播方案来维持深度推断的收敛率。
- 与典型的使用二分法迭代细化法线的方法不同，这种新的采样方案旨在更快地收敛并得到更准确的估计。
视图选择的几何先验：
- 该部分描述了如何在像素级别的视图选择中融入几何先验，从而提高对非结构化图像的鲁棒性。
- 提出的先验鼓励从具有足够的基线、相似的分辨率和非斜视方向的源图像中进行采样。
- 该方法将几何先验与每像素的遮挡指标相结合，提供了更全面和鲁棒的像素级视图选择。
- 提到了Triangulation Prior，说明纯光度遮挡验证可能导致视图选择中的模糊。