多视图立体匹配MVSNet网络解析：保姆级教程

最新推荐文章于 2024-10-18 12:44:33 发布

Tom Hardy

最新推荐文章于 2024-10-18 12:44:33 发布

阅读量3.2k

点赞数 5

文章标签：算法计算机视觉机器学习人工智能深度学习

本文链接：https://blog.csdn.net/qq_29462849/article/details/118160511

版权

本文介绍了MVSNet，一种基于深度学习的多视图立体匹配网络，它通过特征提取、可微分单应变换构建3D代价体，并使用3D卷积正则化进行深度估计。MVSNet可以处理任意数量的视图，展示出在DTU和Tanks and Temples数据集上的优秀性能，同时具备快速运行速度和良好的泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文题目：MVSNet: Depth Inference for Unstructured Multi-view Stereo, (ECCV2018 Oral)

开源代码(tensorflow、PyTorch)地址：在公众号「计算机视觉工坊」，后台回复「MVSNet网络」，即可直接下载。

摘要：作者提出MVSNet，基于多视图图像的深度估计网络。在网络中，首先在2D图像上进行特征提取得到特征图，然后通过可微分的单应变换，基于参考视图的相机视锥体构建3D代价体。然后使用3D卷积对代价体进行正则化，回归得到初始的深度图；初始的深度图通过参考图像优化得到最后的深度图。

MVSNet可以灵活地处理任意数量视图，因为基于方差的代价指标可将多个特征代价提融合为一个特征代价体。MVSNet在大规模室内数据集DTU上进行验证。通过简单的后处理，不仅有显著的性能，还有更快的运行速度。同时也在更加复杂的室外数据集Tanks and Temples上进行评测。无需任何微调，MVSNet在排行榜上位列第一，证明了网络具有良好的泛化性能。

关键词：多视图立体匹配；深度估计；深度学习

一、引言

多视图立体匹配（Multi-view Stereo, MVS）是计算机领域中一个核心问题。多视图立体匹配重建可以当做对确定场景进行拍摄照片的逆过程。拍照通过相机把三维场景映射为二维，而多视图立体匹配重建则刚好相反，其目的是通过不同视点拍摄的图像，恢复出真实的三维场景。

传统的方法使用手工设计的相似性度量指标和正则化方法计算场景的稠密对应关系（比如使用归一化互相关Normalized Cross-Correlation和半全局匹配semi-global matching）。这些方法在非朗伯体表面、无弱纹理区域的场景可以达到很好的效果。但是在弱纹理区域，人工设计的相似性指标变得不可信，因此导致重建结果不完整。由MVS数据集的排行榜可知，这些方法具有很高的精度，然而在重建的完整度方法还有很大的空间可以提升。

卷积神经网络的研究的最新进展引发了人们对改善立体匹配重建的兴趣。从概念上讲，基于学习的方法可以学习到全局的语义信息，比如说有高光和反射的先验可以得到更加鲁棒的匹配效果。目前已经有一些两视图立体匹配的尝试，用神经网络替换手工设计的相似性度量或正则化方法。这些方法展现出更好的结果，并且逐步超过立体匹配领域的传统方法。事实上，立体匹配任务完全适合使用CNN，因为图像对是已经过修正过的，因此立体匹配问题转化为水平方向上逐像素的视差估计。

与双目立体匹配不同的是，MVS的输入是任意数目的视图，这是深度学习方法需要解决的一个棘手的问题。而且只有很少的工作意识到该问题，比如SurfaceNet事先重建彩色体素立方体，将所有像素的颜色信息和相机参数构成一个3D代价体，所构成的3D代价体即为网络的输入。然而受限于3D代价体巨大的内存消耗，SurfaceNet网络的规模很难增大：SurfaceNet运用了一个启发式的“分而治之”的策略，对于大规模重建场景则需要花费很长的时间。

为此，作者提出端到端的多视图深度预测网络MVSNet，和其他基于深度图的MVS方法类似，MVSNet将一张参考图像和多张源图像作为输入，为参考图像预测深度图，而不是整个3D场景。网络的关键之处在于可微分的单应变换操作，在从2D特征图构建3D代价体的过程中，网络将相机参数隐式地将编码入网络。为使网络能够适应任意数目的输入视图数，提出基于方差的指标，该指标将多个特征体映射为一个代价体。对代价体进行多尺度的3D卷积可以回归出一个初始的深度图。最后使用参考图像对深度图进行优化以提升边界区域的精度。我们的方法与之前基于学习方法有两个明显的不同。第一点，基于深度图估计的目的，本文的3D代价体的构建是基于相机视锥体而不是规整的欧式空间。第二点，本文方法将MVS重建划分为逐视图的深度估计问题，使得大规模的重建成为可能。

本文在DTU数据集上对所提出的MVSNet进行训练和评测。实验表明通过简单的后处理，MVSNet在完整度和总分上都要比其他方法要好。除此之外，还在室外数据集Tanks and Temples上验证了网络的泛化性能，MVSNet在榜单上排名第一（截止至2018年4月18号），无需任何调整，MVSNet的效果比开源MVS方法（COLMAP）和商业软件（Pixel4D）要好。同样值得注意的是，在运行速度方面MVSNet比之前最好的方法要快几倍甚至几个数量级。

二、相关工作

多视图立体匹配重建可以当做对确定场景进行拍摄照片的逆过程。拍照通过相机把三维场景映射到二维，而多视图立体匹配重建正好相反，其目标是借助从不同视点拍摄的图像，恢复真实的三维场景。

在立体匹配算法研究中关键的一个组成部分是匹配不同视点拍摄的图像中相似点，即找到某一空间点A在不同图像中的投影位置，也就是找到所对应的点,。该匹配的准则在多视图立体匹配重建领域及其他计算机视觉相关领域中都是至关重要的存在。其中有一个简单的准则，该准则根据比较像素的亮度和颜色来确定其相似度，然而这样的准则对光照的改变十分敏感。为了使图像匹配更加鲁棒，一些新的度量评价指标逐渐被提出：归一化互相关（Normalized Cross-Correlation, NCC），关键点描述符（SIFT描述符）。基于这些基本方法，立体匹配算法逐步进行改进。

匹配图像相似点的最终目的是得到图像的一致性。图像一致性的评定是多视图立体匹配的关键点之一，评定图像一致性的方法是比较图像中的像素点，比较的过程中可能用到三维的信息，包括体元，物体表面或是三角面片。评定匹配程度的指标一般有如下几种：亮度平方差之和（Sum of Squared difference, SSD）；亮度绝对值差之和（Sum of absolute difference, SAD）等。

基于投影的技术也在深度图的重建中广泛应用。其中代表的方法就是平面扫描算法（Plane-Sweep）。平面扫描算法的发明者是Collins，他在1996年提出了这个算法，并且用于在输入图片上过滤检测到的边缘，以便于用这些灰度图片对场景进行立体三维重建。平面扫描的输入数据是一系列经过校准的照片。与其他的重建

最低0.47元/天解锁文章