今天读的是一篇发表在IROS2022上的MVS文章:Multi-View Guided Multi-View Stereo,作者是来自于意大利University of Bologna的Matteo Poggi。
论文链接:arxiv
代码链接:https://github.com/andreaconti/multi-view-guided-multi-view-stereo
目录
Abstract
本文介绍了一种新颖的深度框架,用于从多个图像帧进行密集三维重建,利用与图像采集联合收集的一组稀疏深度测量值。 给定一个深度多视图立体网络,该框架使用稀疏深度提示通过调制在前向步骤中构建的平面扫描成本量来指导神经网络,使我们能够不断推断出更准确的深度图。 此外,由于多个视点可以提供额外的深度测量,提出了一种多视图引导策略,增加了用于引导网络的稀疏点的密度,从而导致更准确的结果。 我们在各种最先进的深度多视图立体网络中评估了我们的多视图引导框架,证明了它在改进每个框架在 BlendedMVG 和 DTU 数据集上取得的结果方面的有效性。
1. Introduction
介绍了一些MVS的背景,在最后说明工作的贡献:
- 提出了 Guided Multi-View Stereo 框架 (gMVS)。 最重要的是,我们提出了mvgMVS来利用从多视图重建任务的不同视点获取多组深度提示。
- 通过在前向传递期间多次应用cost volume modulation来引入从粗到精的指导,这符合最近的 MVS 网络遵循的从粗到精的策略。
- 我们在5个最先进的深度架构中实施了所提出的mvgMVS框架,每个架构都具有不同的正则化和优化策略。
2. Related work
介绍了Stereo Matching、Multi-View Stereo和Depth Completion and Guided Frameworks的相关工作。
3. Proposed framework
A. Deep Multi-View Stereo background
大多数learning-based MVS pipeline都遵循相同的模式。 给定一组
N
N
N幅图像,其中
1
1
1幅假定为参考图像(reference image),另
N
−
1
N -1
N−1 幅作为源图像(source image),深度 MVS 网络处理它们以预测与参考图像对齐的全局密集深度图。 为此目的而设计的大多数深度网络的共同点是对cost volume的定义,编码参考图像中像素与源图像中潜在匹配候选像素之间的特征相似性。 给定每个图像的内在和外在参数 K,E,后者沿着源图像中的对极线检索。具体来说,对于一个特定的深度假设
z
z
z 属于
[
z
m
i
n
,
z
m
a
x
]
[z_{min},z_{max}]
[zmin,zmax],从给定的源视图
i
i
i中提取的特征
F
i
F_{i}
Fi通过基于单应性的变形操作进行投影。然后,为了对参考特征
0
_{0}
0 和
F
i
z
F^{z}_{i}
Fiz之间的相似性进行编码,基于方差的体积定义如下:
因此,对于给定的像素,方差得分越低,从源视图中检索到的特征越相似,因此,假设
z
z
z越可能是它的正确深度。
但是,实施此解决方案需要大量内存,并且计算复杂。 因此,几个最先进的网络实现了从粗到精的解决方案。 具体来说,一组基于方差的成本量被构建为:
s
s
s是计算成本体积的特定分辨率或比例,对应地,来自图像
i
i
i的特征在分辨率
s
s
s被采样为:
B. Guided Multi-View Stereo
通过假设由标准相机和低分辨率深度传感器(例如 LiDAR)组成的设置,我们利用后者的输出来塑造深度网络从一组彩色图像估计深度的行为。 当这个集合仅限于单帧时,通常会训练一个神经网络来完成由彩色图像引导的稀疏深度点。 当有多个图像可用时,该机制通常会反转,深度测量被用作提示来指导基于图像的估计过程。 例如,通过应用于双目立体的 Guided Stereo 框架,通过对特征体积应用高斯调制以使其与深度提示 z 对应达到峰值来实现该策略。
类似地,这种机制也可以应用于MVS,实现引导的多视图立体pipeline(gMVS)。 事实上,在 III-A 引入的方差量也可以方便地调制。 在这种情况下,由于低方差编码了相应深度假设
z
z
z正确的高可能性,我们翻转高斯曲线以强制基于方差的成本体积具有最小近深度提示
z
∗
z^{*}
z∗。
对于具有有效提示的像素,
v
v
v 是等于 1 的二进制掩码(否则为 0),并且
k
k
k、
c
c
c 是高斯本身的幅度和宽度。 到目前为止概述的 gMVS 公式将 Guided Stereo 框架扩展到 MVS。 在其余部分,我们将介绍为 MVS 设置和为其设计的模型明确构思的两个重要的额外贡献。
C. Multi-View Guided Multi-View Stereo
MVS 依赖于从不同视点获取的多幅图像的可用性。 此外,我们假设在我们的设置中注册了彩色图像的稀疏深度测量的可用性。 因此,一组不同的提示可用于每个源图像。 在这种情况下,我们认为从每个视点聚合多组深度提示可以为网络提供更强的指导并进一步改进基线 gMVS 框架的结果。 为此,我们执行两个主要步骤。
Depth hints aggregation
给定具有来自任何源图像
i
i
i 属于
[
1
,
N
]
[1,N]
[1,N] 的单应 2D 坐标
q
i
q_{i}
qi 的像素,其深度值
d
q
i
∗
d^{*}_{q_{i}}
dqi∗ 可用,参考图像视点中的 3D 坐标
p
0
p_{0}
p0 为:
从
p
0
p_{0}
p0可以得到参考图像视点表示的新的深度提示
d
q
0
∗
d^{*}_{q_{0}}
dq0∗ ,并根据坐标
q
0
q_{0}
q0处的
K
0
K_{0}
K0投影到图像平面上。
这允许在参考图像上聚合深度提示,如图 2 所示,从而获得更密集的深度提示图,以更强的指导来调制网络中的volume。 我们将 gMVS 框架的这种扩展称为多视图引导多视图立体 (mvgMVS)。
Depth hints filtering
由于视点不同,在其中一个源视图中获取的一些深度测量值可能属于参考视图中的遮挡区域。 然而,考虑到提示的稀疏性,如果我们限制在不考虑它们的可见性的情况下天真地将它们投影到视图中,这将导致几个错误值的聚合,如图 3 (b) 所示。 如果这样的话,我们会用错误的深度提示来引导深度网络,从而降低其准确性。 为了检测和删除这些异常值,我们部署了过滤策略,将任何像素
q
0
q_{0}
q0 定义为离群值,其邻域
S
(
q
0
)
S(q_{0})
S(q0) 中至少存在一个像素
s
s
s,使得:
简而言之,就是(1)二者的像素坐标的差值和角度(在球坐标系中)的差值不同符号,(2)
q
0
q_{0}
q0距离相机的值大于
s
s
s距离相机的值。虽然简单,但这种策略允许以较小的计算成本去除大部分异常值,如图 3 © 所示。 我们将在消融实验中展示这个步骤对于实现最佳引导是必要的。 我们将此最终实现称为过滤 mvgMVS (fmvgMVS)。
D. Coarse-to-Fine Guidance
与通常构建通过堆叠 3D 卷积处理的单个体积的深度立体网络不同,MVS 网络通常被设计为体现从粗到精的估计以减少计算负担。 我们认为,网络构建的多个cost volume中的任何一个都代表了引导网络的可能切入点。 因此,我们在正向传播期间改装任何
V
s
V_{s}
Vs
v
s
v_{s}
vs 和
z
s
∗
z^{*}_{s}
zs∗ 分别是二进制掩码
v
v
v 和深度提示映射
z
z
z 下采样到分辨率
s
s
s,使用最近邻插值。我们的实验将展示这些多重调制产生的更强指导如何提高整体网络精度。
4. Experimental results
4.1 Datasets
我们首先介绍我们实验中涉及的数据集。 由于现有的 MVS 数据集合均未提供稀疏深度点,因此我们通过从 groundtruth 深度图中随机采样来模拟稀疏提示的可用性。 因此,对于我们的实验,我们只能选择提供此类信息的数据集,即我们无法对 Tank & Temples 进行评估。
BlendedMVG。 该数据集收集了从大约 500 个场景中采样的大约 11 万张图像。 它是通过应用 3D 重建管道从精选场景的图像中恢复高质量纹理网格而创建的。 然后,将网格渲染为彩色图像和深度图。 我们保留 8 个用于验证的序列和 7 个用于测试的序列,其余的用于训练我们实验中涉及的每个网络。
DTU。 这个室内数据集包含 124 个不同的场景,所有场景都共享相同的相机轨迹。 图像是通过安装在机器人手臂上的结构光扫描仪获取的,使用扫描仪本身的一个摄像头。 我们选择训练、验证和测试拆分。 特别是,我们对测试拆分进行了评估,这两个网络单独在 BlendedMVG 上训练,或者在 DTU 训练集上进行微调后进行评估。
4.2 Implementation details
我们的框架是在 PyTorch 中实现的,从现有的解决方案开始。 关于 gMVS,我们通过从地面真实深度图中随机抽取3%的像素来模拟稀疏深度提示的可用性。 我们设置 k = 10 和 c = 0.01。 关于过滤,我们设置为 3。我们使用5个最先进的网络进行了实现 gMVS 和变体的实验(MVSNet、D2HC-RMVSNet、CAS-MVSNet、UCSNet、PatchMatchNet)。
4.3 Training and testing protocol
在训练和测试期间,我们将网络处理的图像数量设置为 5。 因此,我们为 mvgMVS 积累了来自 5 个视图的深度提示。
先是在BlendedMVG上训练,然后在DTU上finetune,测试则是在BlendedMVG和DTU的测试集上评估。
4.4 Ablation study
我们首先研究框架中不同组件的影响,主要是 mvgMVS 扩展和从粗到精的调制。
4.5 Multi-View Guided MVS networks
我们现在评估 mvgMVS 框架对为我们的实验选择的5个最先进网络的影响。 具体来说,我们训练原始网络和它们对应的使用filtered mvgMVS引导的网络 。详情见表VI和表V。
作者还在最后提出了一些当前方法下的限制:
尽管我们的实验突出了多视图引导多视图立体框架的潜力,它对合成数据集和真实数据集均有效,但我们的提议存在一个在某些环境中可能很重要的限制:使用特定提示密度训练的网络无法概括到不太密集的提示输入。 具体来说,一旦用固定密度的输入深度点训练了一个引导网络,如果在测试时不能保证这样的密度,性能就会下降。 表 VI 通过使用 MVSNet 进行的进一步实验研究了这种行为,该实验在训练期间在视图上聚合了 3% 的提示,并以不同的密度进行了测试。 我们可以注意到,通过减少提示的数量,网络性能也会降低,但仍然比没有指导训练的原始 MVSNet 更好(第一行)。 但是,通过完全忽略提示(最后一行),性能会大大低于原始 MVSNet。 这种行为突出表明,网络本身在与它们一起训练时几乎盲目地利用提示,当提示在部署期间不可用时会失去很多准确性。 未来的研究将探索更好的训练协议,以在这种情况下使准确性出现最轻微的下降。 此外,当前的评估是通过模拟来自传感器的深度提示的可用性来进行的。 对真实传感设备的进一步实验将允许评估框架对深度稀疏点噪声的鲁棒性。
5. Conclusion
在本文中,我们提出了一种用于准确估计MVS深度的新颖框架。 从双目立体的成功开始,我们通过聚合从不同视点获取的多个深度提示,扩展了引导立体以充分利用多视图设置的潜力。 我们对5个最先进的MVS网络进行的实验表明了我们框架的有效性,它能不断生成更准确的深度图,从而能够重建更高质量的点云。 无论是从合成数据推广到真实数据,还是在对真实图像进行微调之后,这种行为都是一致的。