HighRes-MVSNet: A Fast Multi-View Stereo Network for Dense 3D Reconstruction From High-Resolution Images
1.四个问题
要解决什么问题?
降低三维重建过程中的内存需求
用什么方法解决?
提出端到端的深度学习框架,
一种具有金字塔编码器-解码器结构的卷积神经网络,可在从粗到细的层次结构上逐步搜索深度对应关系。 在网络的第一阶段将图像特征编码为更小的分辨率,以显着降低内存需求。 此外,将每个层次级别的深度搜索范围限制在先前预测的附近。
效果如何?
相比于其他方法速度至少快8倍,内存至少少6倍。据说是第一个能在消费级GPU上轻松处理12MP输入图像的网络。
还存在什么问题?
针对高分辨率的输入,必须放大可用的基准输入图像以获得最佳结果。
(因为由粗到细估计深度的网络,粗略预测作为下一阶段的先验,故非常依赖最粗略的深度估计,若最粗略估计与真实深度值像差太远,网络就无法预测正确的深度,造成较大误差。但是如果将多个深度预测融合到一个点云中,则问题不会持续存在,因为错误的预测是不一致的)
论文简介
摘要 我们提出了一种端到端的深度学习架构,用于从高分辨率图像进行 3D 重建。 虽然许多方法只专注于提高重建质量,但我们主要关注降低内存需求,以利用现代高分辨率相机提供的丰富信息。 为此,我们提出了 HighRes-MVSNet,这是一种具有金字塔编码器-解码器结构的卷积神经网络,可在从粗到细的层次结构上逐步搜索深度对应关系。 我们网络的第一阶段将图像特征编码为更小的分辨率,以显着降低内存需求。 此外,我们将每个层次级别的深度搜索范围限制在先前预测的附近。 通过这种方式,我们能够生成高度准确的 3D 模型,同时只使用以前方法的一小部分 GPU 内存和运行时间。
尽管我们的方法针对更高分辨率的图像,但我们仍然能够在 Tanks and Temples 基准测试中产生最先进的结果,并在 DTU 基准测试中取得优异成绩
网络结构
实验结果