文献阅读-HighRes-MVSNet: A Fast Multi-View Stereo Network for Dense 3D Reconstruction From High-Resoluti

最新推荐文章于 2024-05-25 09:31:18 发布

MRzzyy

最新推荐文章于 2024-05-25 09:31:18 发布

阅读量353

点赞数

分类专栏：文献阅读

本文链接：https://blog.csdn.net/MRzzyy/article/details/117508643

版权

文献阅读专栏收录该内容

13 篇文章 0 订阅

订阅专栏

HighRes-MVSNet: A Fast Multi-View Stereo Network for Dense 3D Reconstruction From High-Resolution Images

1.四个问题
要解决什么问题？
降低三维重建过程中的内存需求
用什么方法解决？
提出端到端的深度学习框架，
一种具有金字塔编码器-解码器结构的卷积神经网络，可在从粗到细的层次结构上逐步搜索深度对应关系。在网络的第一阶段将图像特征编码为更小的分辨率，以显着降低内存需求。此外，将每个层次级别的深度搜索范围限制在先前预测的附近。
效果如何？
相比于其他方法速度至少快8倍，内存至少少6倍。据说是第一个能在消费级GPU上轻松处理12MP输入图像的网络。
还存在什么问题？
针对高分辨率的输入，必须放大可用的基准输入图像以获得最佳结果。
（因为由粗到细估计深度的网络，粗略预测作为下一阶段的先验，故非常依赖最粗略的深度估计，若最粗略估计与真实深度值像差太远，网络就无法预测正确的深度，造成较大误差。但是如果将多个深度预测融合到一个点云中，则问题不会持续存在，因为错误的预测是不一致的）
论文简介
摘要我们提出了一种端到端的深度学习架构，用于从高分辨率图像进行 3D 重建。虽然许多方法只专注于提高重建质量，但我们主要关注降低内存需求，以利用现代高分辨率相机提供的丰富信息。为此，我们提出了 HighRes-MVSNet，这是一种具有金字塔编码器-解码器结构的卷积神经网络，可在从粗到细的层次结构上逐步搜索深度对应关系。我们网络的第一阶段将图像特征编码为更小的分辨率，以显着降低内存需求。此外，我们将每个层次级别的深度搜索范围限制在先前预测的附近。通过这种方式，我们能够生成高度准确的 3D 模型，同时只使用以前方法的一小部分 GPU 内存和运行时间。
尽管我们的方法针对更高分辨率的图像，但我们仍然能够在 Tanks and Temples 基准测试中产生最先进的结果，并在 DTU 基准测试中取得优异成绩
网络结构
提议的 HighRes-MVSNet 网络架构。给定一组图像，使用金字塔池化 (PP) 在编码器部分的 4 个不同尺度上提取特征。然后我们通过可微单应性扭曲和方差成本度量以最粗略的尺度 (C4) 组装成本量。接下来，解码器产生 2 个输出：1) 成本量，它将被上采样并与下一阶段的原始成本量融合。 2) 一个分类的成本量，通过深度回归产生深度图来初始化下一阶段的特征量。这个过程重复 4 个阶段，直到我们得到最终的输出深度图
在这里插入图片描述

实验结果
DTU 数据集的定量结果。所有分数均以 mm 为单位，代表平均距离（越低越好）。 Ours(HR) 将输入图像缩放到 3200 × 2368 的分辨率。最佳结果以粗体显示，亚军以下划线显示。
DTU 数据集上输入图像大小为 1600 × 1152 的结果。我们的方法在准确性和完整性方面取得了与最先进方法相当的结果，同时至少快 8 倍，使用的内存减少 6 倍到第二好的表现。最好的结果用粗体显示，亚军用下划线表示。