三维视觉论文阅读：MVSNet2018多视立体匹配

最新推荐文章于 2024-07-30 16:57:06 发布

yanqs_whu

最新推荐文章于 2024-07-30 16:57:06 发布

阅读量921

点赞数

分类专栏：三维视觉

本文链接：https://blog.csdn.net/u012348774/article/details/112704026

版权

三维视觉专栏收录该内容

26 篇文章 23 订阅

订阅专栏

MVSNet是深度学习在多视立体匹配领域的开创性工作，利用多视图几何原理高效构建可微的cost volume。通过选定参考图像，对多张源图像进行匹配，并融合深度估计，形成最终的深度图。网络结构包括特征提取、cost volume构建、代价聚合和深度优化。尽管对GPU资源需求高，但其效果显著。

摘要由CSDN通过智能技术生成

论文

MVSNet: Depth Inference for Unstructured Multi-view Stereo

摘要

MVSNet是深度学习多视立体匹配的开山之作（我个人认为），虽然其在网络结构上与双目立体匹配并没有太大的改进，但是其解决了如何进行多视下怎么可微的进行cost volumn构建。

方法

下图展示了MVSNet的主要结构，如果排除掉cost volumn的构建方法，可以说其与GCNet/PSMNet可以说没啥太大的区别；总体来说，MVSNet也可以分为四个部分，哈斯特征提取、cost volumn构建、cost volumn代价聚合，以及深度优化。
在这里插入图片描述

1. 特征提取

此模块无需多言，与其他方法并没有什么太大的区别。

2. cost volumn构建

多张影像进行深度估计，此处有两种方法：第一种先两张两张的做，转化成双目立体匹配，最后融合；第二种，选定一张reference image，估计其深度，同时与多张source image匹配，最后将多个reference image的点云融合起来，得到最终的结果。
相比而言，第二种方法比较优雅，再传统的方法领域里也有非常多的成果（例如colmap等等）。本篇文章也是基于这个思路，但是这个时候就比较头痛了，应该怎么高效的可微的构建cost volumn呢？因为，显然根据不同的深度来投影并计算特征的效率是很低的。
这个时候，MVSNet就充分应用了一个“多视图几何”的常识，假如多张影像共同可见一个平面，那么这些影像之间存在一个单应变换（证明百度即可）。MVSNet假设物方空间都是一系列与Reference Image平行的平面，平面的深度由近及远；然后根据影像之间的位姿和深度，即可求出当前深度下，reference image和source image之间的单应变换，从而高效的完成cost volumn的构建。单应变换的计算公式如下
在这里插入图片描述
考虑reference image有多个source image，那么就可以构建多个cost volumn。最后这些cost volumn通过以下公式合并成一个cost volumn，就是就是方差。