2019CVPR单目深度估计综述

Recurrent MVSNet for High-resolution Multi-view Stereo Depth Inference

代码链接https://github.com/YoYo000/MVSNet
近年来,深度学习在多视点立体视觉(MVS)方面表现出了优异的性能。然而,当前学习MVS方法的一个主要限制是可逆性:内存消耗量正则化使得学习MVS难以应用于高分辨率场景。本文介绍了一种基于递归神经网络的标量多视图立体框架。提出的递归多视点立体网络(R-MVSNet)通过门控递归(GRU)对纵深方向的二维成本图进行序列正则化,而不是一次正则化整个三维成本。这大大减少了内存消耗,使高分辨率重建成为可能。

我们首先展示了由提议的R-MVSNet在最近的MVS基准上实现的最先进的性能。然后,我们进一步演示了该方法在几种大规模场景下的可伸缩性,在这些场景中,以前学习的方法常常由于内存限制而失败。
Multi-view stereo (MVS) 目标是根据多角度图像以及校准的相机,恢复出三维场景。新的机器学习(learned)方法在MVS中相比传统方法表现出色。然而在大多数learned MVS方法中,由于cost volume regularization严重消耗内存,使得方法可扩展性差,无法应用于高分辨率场景。

递归多视角立体视觉网络(R-MVSNet)不是一次性正则化整个3-D成本容积,而是通过门控递归单元(GRU)网络串行地沿深度值方向正则化2-D成本图。这大大减少了内存消耗,并使高分辨率重建成为可能。

本文在原本MVSNet基础上,在cost volume regularization一步采用多层gated recurrent unit (GRU)而非 3D CNN,内存消耗由立方增长降低到平方增长,可以应用于高分辨率场景。

本文首先验证了Recurrent MVSNet在常规数据集DTU,Tanks and Temples, ETH3D上表现,甚至出色于MVSNet。 之后又在大规模场景中验证,详细分析了内存消耗。

下图是R-MVSNet的框图介绍。从输入图像中提取深度图像特征,然后将其变形到参考相机坐标系的前向平行平面。在不同深度处计算成本图并由卷积GRU串行地正则化处理。网络被训练为具有交叉熵(cross-entropy)损失的分类问题。
在这里插入图片描述如图是R-MVSNet的重建流水线直观图:(a)DTU图像;(b)来自网络的初始深度图;(c)最终深度图估计;(d)基础事实深度图;(e)输出点云;(f)深度图滤波的概率估计图;(g)初始深度图的梯度图;(h)细化后的梯度图。
在这里插入图片描述

Geometry-Aware Symmetric Domain Adaptation for Monocular DepthEstimatio

代码链接:https://github.com/sshan-zhao/GASDA
在这里插入图片描述先进的深度网络体系结构使得监督深度估计具有较高的精度。由于groundtruth深度标签难以获取,近年来的方法试图通过非监督线索来学习深度估计网络,这种方法虽然有效,但不如真实标签可靠。解决这一难题的一种新方法是通过域自适应技术从具有groundtruth深度的合成图像中迁移知识。

然而,这些方法忽略了目标域内自然图像的特定几何结构(即,真实数据),这对于高性能的深度预测非常重要。在此基础上,我们提出了一种基于几何感知的对称域自适应框架(GASDA),用于研究合成数据和真实数据中的超极几何标记。此外,通过在端到端网络中对称地训练两个图像样式转换器和深度估计器,我们的模型实现了更好的图像样式转换,生成了高质量的深度图。实验结果证明了该方法的有效性,并与现有方法进行了比较。

下图是不同框架的单目深度估计使用领域适应。从左到右:分别在[26]、[59]和本文中提出的方法。S、T、F、S2T (T2S)和D分别表示合成数据、真实数据、提取特征、生成数据和估计深度。AL和MDE分别表示对眼损失和单目深度估计。与现有的方法相比,我们的方法利用了真实的立体数据,在翻译过程中考虑了合成到真实和真实到合成。
在这里插入图片描述
本文提出的框架。它由图像风格平移和单目深度估计两大部分组成。
在这里插入图片描述实验结比较:
在这里插入图片描述

CAM-Convs: Camera-Aware Multi-Scale Convolutions for Single-View Depth Prediction

代码链接:https://github.com/jmfacil/camconvs
单视点深度估计存在一个问题,即对一个相机的图像进行训练的网络不能推广到使用不同相机模型拍摄的图像。因此,改变相机模型需要收集一个全新的训练数据集。在这项工作中,我们提出一种新型的卷积,可以考虑相机参数,从而使神经网络学习校准感知模式。实验证明,该方法大大提高了深度预测网络的泛化能力,明显优于用不同相机获取列车和测试图像的方法。

具体来说,作者提出的网络中,主要贡献是一种新型的卷积,称之为CAM-Convs(相机感知多尺度联合),它将相机内部参数连接到特征图,因此允许网络从这些参数中学习深度的依赖关系。

图显示了CAM-Convs在典型的编解码器深度估计管道中的作用。我们证明了该网络也适用于未经训练的摄像机图像。与现有的单图像深度估计方法进行了比较,结果表明,较好的泛化特性并没有降低深度估计的精度。
在这里插入图片描述本文网络架构受到了disnet[26]的启发,我们在其中添加了连接编码器和解码器的CAM-Convs。我们预测前三个中间分辨率级别(LR-1、MR-1和MR-2)的深度、置信度和法线(D+C+N),仅预测后两个分辨率级别(HR-1和HR-2)的深度和置信度(D+C)。

在这里插入图片描述作者在多个数据集上进行实验
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

Recurrent Neural Network for (Un-)supervised Learning of Monocular Video Visual Odometry and Depth

基于深度学习的单视图深度估计方法最近得到了很有前途的结果。然而,这些方法忽略了决定人类视觉系统深度的最重要特征之一,那就是运动。提出了一种基于学习的多视点密集深度图和里程计估计方法,该方法采用递归神经网络(RNN),利用多视点图像重投影和前后向流一致性损失进行训练。

我们的模型可以在有监督甚至无监督的模式下进行训练。它是为视频的深度和视觉里程估计而设计的,其中输入帧是时间相关的。然而,它也推广到单视图深度估计。对于基于KITTI驱动数据集的单视图和多视图学习深度估计,我们的方法比目前最先进的方法有更好的效果。

除了图像重投影约束外,我们进一步利用了前后向流一致性约束[38]。这种约束为图像重投影模糊的区域提供了额外的监督。此外,它提高了模型的鲁棒性和通用性。下图显示了一个前向-后向图像重投影和光流的例子,以及得到的预测深度图。
在这里插入图片描述本文提出的基于rnnn的深度和视觉里程估计网络降雨管道。在训练过程中,我们的框架以向前和向后的10帧子序列作为输入,并使用多视图图像重投影、流一致性和可选的groundtruth深度来训练我们的深度和视觉里程测量网络。DGM是一个可微几何模块。
在这里插入图片描述实验结果对比:
在这里插入图片描述

Connecting the Dots: Learning Representations for Active Monocular Depth Estimation

代码链接:https://github.com/fabiotosi92/monoResMatch-Tensorflow
单幅图像的深度估计是一个复杂而又具有挑战性的问题,有无数的应用。最近的研究证明,这个任务可以在没有直接监督的情况下学习——利用序列或立体对上的老化图像合成。针对第二种情况,我们利用立体成像技术来改进单目深度估计。为此,我们提出了monoResMatch,这是一种通过综合不同角度的特征,与输入图像保持一致,在两个线索之间进行立体匹配,从而从单个输入图像推断深度的新型深度框架。

与之前分享这一原理的作品相比,我们的网络是第一个从头到尾训练的。此外,我们还展示了如何通过传统的立体算法(如半全局匹配)获得代理地面真实感注释,从而通过保持自我监督的方法实现更精确的单目深度估计,从而克服了昂贵深度标签的需求。详尽的实验结果证明了i)所提出的单目重建与ii)位置监督在自监督单目深度估计方面的协同作用达到了最新水平。

下图显示了框架的概述,描述了输入框架和monoResMatch的结果

在这里插入图片描述在这里插入图片描述由SGM计算的代理标签示例。给定源图像(a),网络利用经过左右一致性检查过滤的SGM监督(b)来训练monoResMatch来估计最终的视差图 ©
在这里插入图片描述实验对比结果:
在这里插入图片描述

  • 8
    点赞
  • 51
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值