多目立体视觉（Multiple View Stereo, MVS）

BTWBB

已于 2022-08-30 11:05:43 修改

阅读量5.1k

点赞数 3

分类专栏：三维重建相关知识文章标签：计算机视觉人工智能算法

于 2022-08-30 11:04:48 首次发布

原文链接：https://dl.acm.org/doi/abs/10.1561/0600000052

版权

三维重建相关知识专栏收录该内容

9 篇文章 13 订阅

订阅专栏

多目立体视觉（Multiple View Stereo，MVS）

概念

定义：可以用来从照片中提取几何图形的线索有: 纹理、散焦、阴影、轮廓和立体匹配。多目立体视觉(MVS)是一组以立体匹配为主要线索并使用两张以上图像的技术的总称。与SLAM/SFM的区别：前者是摄像头运动，后者是多个摄像头视角。

MVS三维重建的目标：给定一组物体或场景的照片，在已知材料、视点和照明条件的假设下，估计最可能解释这些照片的3D形状。（该定义强调了任务的难度，即假设材料、视点和照明是已知的。如果这些都不知道，问题通常是不适定的，因为多种组合的几何，材料，视点，和照明可以产生完全相同的照片。）

方法

MVS主要的步骤：不同的实际应用可能会有不同的方法，但是它们总体的步骤都是相同的。
1. 收集图像
2. 计算各个视角图像的相机参数
3. 从一组图像和相应的相机参数中重建场景的三维几何
4. 重建场景的材料（可选）
场景表示可以是：体素、多边形网格、深度图和水平度集（level sets）；
在这里插入图片描述

Structure-from-Motion (SfM)

MVS算法要求每个输入图像都有一个对应的相机模型，该模型完整地描述了如何将世界中的3D点投影到特定图像中的2D像素位置，具体的相机模型可参照相机参数一文。在没有给定各个视角相机参数时我们通常需要采用一些算法去估计，SfM是常用的估计算法。

定义：SfM算法以一组图像作为输入，输出两个东西:每幅图像的相机参数，以及图像中可见的一组3D点，这些点通常被编码为轨迹。轨迹定义为一个重建的三维点的三维坐标，以及输入图像子集中相应的二维坐标列表。

基本步骤：
1.特征提取（SIFT, SURF, FAST等一堆方法）：从每个输入的图像中检测2D特征；
2.配准（主流是RANSAC和它的改进版）：匹配图像之间的2D特征。
3.根据匹配构造2D轨迹。
4.从2D轨迹求解SfM模型。
5.使用光束平差法优化SfM模型，得出相机参数。
在这里插入图片描述
光束平差法（bundle adjustment）：光束平差法不是SfM必须的一部分，但是为了提高重建精度，它是常用的一步来修正SfM模型。给定给定相机参数集合 ${P_i\}$ ，以及轨迹集 $\{M^j,\{m^j_i\}\}$ ,其中 $M^j$ 是轨迹的3D坐标， $m^j_i$ 是第i个相机的图像投影坐标。光束平差法最小化下列误差：

$E(P,M)=\sum_{j}\sum_{i}|P_i(M^j)-m_i^j|^2$

Photo-consistency measures

在MVS的情况下，摄像机参数是已知的，解决场景的3D几何完全等价于解决整个输入图像的对应问题。给定一幅图像中的一个像素，在其他图像中找到相应的像素需要两要素：:1.在其他图像中生成可能的候选像素的有效方法。2.一种衡量标准，用来判断给定的候选人匹配正确的可能性有多大。至于判断候选匹配可能性的方法，有大量的文献是关于如何建立所谓的光一致性方法，估计两个像素(或一组像素)对应的可能性。
定义：给定N张图像以及一个在所有图像中可见的点p，定义图像对 $I_i,I_j)$ 的光度一致性为：
$C_{ij}(p)=\rho(I_i(\Omega(\pi(p))),I_j(\Omega(\pi_j(p))))$
其中 $\rho(.)$ 是两个向量的相似度测量， $\pi_i(p)$ 是点p向第i个图像的投影， $\Omega(x)$ 是围绕点x的一个支持域， $I_i(x)$ 表示在这个支持域内采样的图像强度。支持域Ω的主要目的是定义一个区域的大小，在该区域中，场景的外观应该是唯一的，并且在一定程度上不受照明和视角变化的影响。一些光度一致性测量不需要定义支持域：
在这里插入图片描述
唯一性和不变性通常是光一致性测量的两个竞争性质。Ω的域越大，域内的局部外观就越独特，这使得它更容易与其他图像匹配。同时，域越大，由于反射，深度边界，或平滑的几何假设导致就越难维持照明和视角不变性。