DeMoN:深度与运动估计的网络学习

DeMoN:深度与运动估计的网络学习

DeMoN: Depth and Motion Network for Learning Monocular Stereo

Taylor Guo, 2017年05月20日

摘要

本文将运动恢复结构问题表示为一个深度学习问题。我们训练了一个端到端的卷积神经网络从连续的无约束的图像对中计算深度和相机运动。这个架构由多个堆叠的编码器-解码器网络组成,其核心部分作为一个迭代网络可以增强预测功能。这个网络不仅可以估计深度和运动,还可以估计表面法线,图像和可靠匹配间的光流。这个方法的关键部分是基于空间相关差异的训练损失函数。与传统的两帧运动恢复结构方法相比,结果更精确、更鲁棒。与通常的单图像恢复深度网络相反,DeMoN学习匹配的思路,因此可以更好地泛化那些在训练阶段没有看到的结构。

1. 简介

运动恢复结构是计算机视觉中经久不衰的工作。大部分现有的系统,尤其是最近的工作,都是由几个连续的处理步骤组成的小心处理的工程管道流程。这些流程的一个基本模块是从两幅图像中计算结构和运动。这一步骤当前的实现方式有其天然局限。比如,通常在用稠密匹配搜索进行场景结构推导之前,从相机的运动估计开始。因此,对相机运动不正确的估计会导致错误的深度预测。还有,就是从用关键点检测和描述子匹配中计算的稀疏匹配中估计相机运动。低阶估计中通常都会出现异常点,无法在无纹理的区域工作。最后,所有的运动恢复结构方法都会在相机小范围平移中失效。这是因为在这些退化情况下无法获得可以提供合理方案的先验信息。

本文,我们第一次成功地训练卷积神经网络从一对无约束的图像中估计深度和相机运动。这个方法在传统的运动恢复结构流程处理运动和稠密深度估计问题中非常困难。我们无法针对大规模运动恢复结构提供一个基于深度学习方法的系统,但是两帧情况是这个目标非常重要的第一步。长期来看,学习方法具有非常大的潜力,它天然地从各种潜在未知方案中整合各种方法:多视图,轮廓,纹理,阴影,失焦,雾化。还有,关于物体和结构的强有力的先验信息可以从数据中有效地学习,并在退化状况下对问题进行归一化处理;如图6所示的案例。这种潜力在两视图场景中从我们的实验结果中可以看到,学习方法明显由于传统方法。

这里写图片描述
图6:DeMon增加两输入图像之间的基线获得的定性结果。深度图用左上角的参考图片和下面第二排的图像分别生成的。第一个输出结果用两个一样的图像作为输出得到的,这在传统的运动恢复结构中是退化情况。

卷积神经网络最近在单图像深度估计中表现突出,如论文7,8,24。通过学习物体和它们外形,这些网络可以在一些具有限制约束的评估场景中,比如室内和驾驶场景中,取得非常好的性能。但是,单图像方法在对之前没有看到过的图像类型进行泛化时还是有很多问题。这是因为它们没有使用立体视觉。图9就是一个例子,单图像深度估计失败,因为网络之前没有看到过类似的结构。我们的网络,学习使用了运动视差,没有这种立体视觉约束,无法很好地泛化到新场景。

这里写图片描述
图9:DeMoN对之前没有见过场景泛化能力的可视化效果。单帧方法在这种情况下遇到严重的问题,深度估计的点云可视化中可以清晰看到上一个例子留下的拖影。

为了利用运动视差,网络必须放入两个输入图像用于匹配。我们发现一个简单的编码器-解码器网络无法利用立体视觉:当网络训练用于从两幅图像中计算深度时,如果只用一张图,它就会结束。单一图像的深度计算是一条捷径可以完成训练目标而不用放两张图像用来匹配,再从这些匹配中推导相机运动和深度。
本文我们提供了一种方法来避免这种捷径,用这个方法来获得精确的深度地图和相机运动估计。这个问题的关键是设计一个架构交替估计光流和相机运动、深度估计;如图3所示。为了处理光流,网络必须使用两张图像。我们使用了FlowNet架构。我们的网络架构由一个迭代部分与递归网络类似,共享权重。与通常在实践中训练递归网络时进行展开不同,我们增加了对当前minibatch追加前一次训练迭代结果的预测。这种训练方法可以节省大量内存,在训练过程中包含更多迭代结果。本文的另一个技术贡献是一个特别的梯度损失函数可以处理运动恢复结构中的尺度模糊问题。网络是在Kinect相机拍的真实图像上的一个混合集上进行训练的,包括SUN3D数据集,和一个我们为这个工作渲染的一个场景。

2. 相关工作

从一对图像中估计深度和运动的工作可以追溯到Longuet-Higgins的论文25两射影重构结构。3D几何是一个传统领域,在教材多视图几何和3维计算机视觉中有涵盖。最新的系统可以做大规模场景包括整个城市的场景重建。它们是由大量方法组成的流程,

3. 网络架构

这里写图片描述
图2:网络架构图。DeMoN使用一个图像对作为输入,预测第一个图像的深度图和第二个相机的相对位姿。网络由一系列编码器-解码器网络组成,在光流,深度图,自身位姿估计上迭代;图3是详细结构。优化后的网络可以增强最终深度图的分辨率。

这里写图片描述
图3:提升和迭代网络中的编码器-解码器的结构框图表示。灰色字体输入部分只用于迭代网络。第一个编码器-解码器估计光流和它在图像对和前一估计的置信度。第二个编码器-解码器估计深度图和表面法线。在编码器后面增加全连接网络估计相机运动r,t和深度尺度因子s。尺度因子s是深度相对于相机运动的尺度。

  • 5
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值