文献阅读-HighRes-MVSNet: A Fast Multi-View Stereo Network for Dense 3D Reconstruction From High-Resoluti

HighRes-MVSNet: A Fast Multi-View Stereo Network for Dense 3D Reconstruction From High-Resolution Images

1.四个问题
要解决什么问题?
降低三维重建过程中的内存需求
用什么方法解决?
提出端到端的深度学习框架,
一种具有金字塔编码器-解码器结构的卷积神经网络,可在从粗到细的层次结构上逐步搜索深度对应关系。 在网络的第一阶段将图像特征编码为更小的分辨率,以显着降低内存需求。 此外,将每个层次级别的深度搜索范围限制在先前预测的附近。
效果如何?
相比于其他方法速度至少快8倍,内存至少少6倍。据说是第一个能在消费级GPU上轻松处理12MP输入图像的网络。
还存在什么问题?
针对高分辨率的输入,必须放大可用的基准输入图像以获得最佳结果。
(因为由粗到细估计深度的网络,粗略预测作为下一阶段的先验,故非常依赖最粗略的深度估计,若最粗略估计与真实深度值像差太远,网络就无法预测正确的深度,造成较大误差。但是如果将多个深度预测融合到一个点云中,则问题不会持续存在,因为错误的预测是不一致的)
论文简介
摘要 我们提出了一种端到端的深度学习架构,用于从高分辨率图像进行 3D 重建。 虽然许多方法只专注于提高重建质量,但我们主要关注降低内存需求,以利用现代高分辨率相机提供的丰富信息。 为此,我们提出了 HighRes-MVSNet,这是一种具有金字塔编码器-解码器结构的卷积神经网络,可在从粗到细的层次结构上逐步搜索深度对应关系。 我们网络的第一阶段将图像特征编码为更小的分辨率,以显着降低内存需求。 此外,我们将每个层次级别的深度搜索范围限制在先前预测的附近。 通过这种方式,我们能够生成高度准确的 3D 模型,同时只使用以前方法的一小部分 GPU 内存和运行时间。
尽管我们的方法针对更高分辨率的图像,但我们仍然能够在 Tanks and Temples 基准测试中产生最先进的结果,并在 DTU 基准测试中取得优异成绩
网络结构
提议的 HighRes-MVSNet 网络架构。 给定一组图像,使用金字塔池化 (PP) 在编码器部分的 4 个不同尺度上提取特征。 然后我们通过可微单应性扭曲和方差成本度量以最粗略的尺度 (C4) 组装成本量。 接下来,解码器产生 2 个输出:1) 成本量,它将被上采样并与下一阶段的原始成本量融合。  2) 一个分类的成本量,通过深度回归产生深度图来初始化下一阶段的特征量。 这个过程重复 4 个阶段,直到我们得到最终的输出深度图
在这里插入图片描述

实验结果
DTU 数据集的定量结果。 所有分数均以 mm 为单位,代表平均距离(越低越好)。  Ours(HR) 将输入图像缩放到 3200 × 2368 的分辨率。最佳结果以粗体显示,亚军以下划线显示。
DTU 数据集上输入图像大小为 1600 × 1152 的结果。我们的方法在准确性和完整性方面取得了与最先进方法相当的结果,同时至少快 8 倍,使用的内存减少 6 倍 到第二好的表现。 最好的结果用粗体显示,亚军用下划线表示。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值