Multi-Scale Continuous CRFs as Sequential Deep Networks for Monocular Depth Estimation论文翻译

摘要:
本文从单个静止图像中解决了深度估计的问题。 受近期多尺度卷积神经网络(CNN)工作的启发,我们提出了一个深度模型,它融合了从多个CNN侧输出得到的补充信息。 与以前的方法不同,通过连续条件随机场(CRF)获得积分。 特别是,我们提出了两种不同的变体,一种基于多个CRF的级联,另一种基于统一的图形模型。 通过设计连续CRF的平均场更新的新型CNN实现,我们表明两个提出的模型可以被视为顺序深度网络,并且训练可以端到端地执行。 通过广泛的实验评估,我们证明了所提出方法的有效性,并在公开可用的数据集上建立了新的最先进的结果。
1.简介
虽然从单个图像估计场景的深度对于人类来说是自然的能力,但是设计用于从RGB数据准确地预测深度信息的计算模型是一项具有挑战性的任务。 过去已经进行了许多尝试来解决这个问题。 特别是,由于强大的深度学习模型,最近的作品取得了显着的成绩[8,9,20,24]。 假设具有大的RGB深度对训练集的可用性,单眼深度预测被铸造为像素级回归问题,并且通常采用卷积神经网络(CNN)架构。
这里写图片描述
在过去几年中,在研究界已经做出了很大的努力来改进用于像素级预测任务(例如语义分割,轮廓检测)的CNN模型的性能。先前的工作已经表明,对于深度估计以及其他像素级分类/回归问题,可以通过组合来自多个尺度的信息来获得更准确的估计[8,33,6]。这可以通过不同的方式实现,例如,融合对应于不同网络层的特征映射或设计具有对应于不同分辨率的图像的多个输入的架构。其他工作已经证明,通过在卷积神经结构中级联添加条件随机场(CRF),可以大大提高性能,并且CRF可以完全集成在深层模型中,从而实现端到端的训练。传播[36]。然而,这些工作主要集中在离散域中的像素级预测问题(例如,语义分割)。虽然是互补的,但到目前为止,这些策略只是孤立地考虑,以前的工作都没有利用CRF推理框架内的多尺度信息。
在本文中,我们认为,受益于图形模型的灵活性和表现力,我们可以优化融合来自多个CNN侧输出层的表示,从而提高传统多尺度策略的性能。通过利用这一想法,我们引入了一种新的框架来估计单个静止图像的深度图。与先前通过平均或串联融合多尺度特征的工作相反,我们建议通过设计基于连续CRF的新方法来集成多层侧输出信息。具体来说,我们提出两种不同的方法第一种方法基于单一的多尺度CRF模型,而另一种方法则考虑一系列特定尺度的CRF。我们还表明,通过在连续CRF中引入平均场更新的通用CNN实现,两个模型等同于顺序深度网络,并且可以设计端到端方法用于训练。通过广泛的实验评估,我们证明了提出的基于CRF的方法比传统的多尺度方法产生更准确的深度图,用于像素级预测任务[10,33](图1)。此外,通过在公开的NYU Depth V2 [30]和Make3D [29]数据集上进行实验,我们证明我们的方法优于单眼深度估计的最新方法。
总而言之,本文的贡献有三个方面。首先,我们提出了一种用于从RGB输入预测深度图的新方法,其利用从CNN内层导出的多尺度估计,通过在CRF框架内融合它们。其次,由于像素级深度预测的任务意味着推断出一组连续值,我们展示了如何将平均场(MF)更新实现为顺序深度模型,从而实现整个网络的端到端训练。我们相信,我们的MF实施不仅对研究深度预测的研究人员有用,而且对那些对涉及连续变量的其他问题感兴趣的人也有用。因此,我们的代码是公开的1。第三,我们的实验表明,所提出的多尺度CRF框架优于以前的方法,通过组合多个损失[33]或采用特征级联[10]来整合来自中间网络层的信息。我们还表明,我们的方法在公共基准测试中优于最先进的深度估计方法,并且所提出的基于CRF的模型可以与不同的预先训练的CNN架构结合使用,从而不断提高其性能。
2.相关的工作
深度估算。用于从单个图像进行深度估计的先前方法可以分为三个主要组:(i)在手工制作的特征上操作的方法,(ii)基于图形模型的方法和(iii)采用深度网络的方法。
解决深度预测任务的早期工作属于第一类。 Hoiem等人。 [12]介绍了照片弹出窗口,这是一种从单张照片创建基本3D模型的全自动方法。 Karsch等。 [14]开发了深度转移,一种非参数方法,其中通过转移多个相似图像的深度然后应用一些翘曲和优化程序来重建输入图像的深度。 Ladicky [17]证明了将语义对象标签与深度特征相结合的好处。
其他工作利用图形模型的灵活性来重建深度信息。 例如,Delage等人。 [7]提出了一种动态贝叶斯框架,用于从室内场景中恢复3D信息。 在[28]中引入了经过区别训练的多尺度马尔可夫随机场(MRF),以便最优地融合局部和全局特征。 在[21]中,深度估计被视为离散连续CRF中的推理问题。 但是,这些工作没有采用深度网络。
最近的深度估计方法基于CNN [8,20,32,26,18]。 例如,Eigen等人。 [9]提出了一种用于深度预测的多尺度方法,考虑两个深度网络,一个基于整个图像执行粗略全局预测,另一个在本地进行精炼预测。 这种方法在[8]中得到了扩展,以处理多个任务(例如语义分割,表面法线估计)。 王等人。 [32]引入了CNN进行联合深度估计和语义分割。 使用分层CRF进一步细化所获得的估计。 与我们最相似的工作是[20],其中深CNN和连续CRF的表征能力被联合用于深度预测。 然而,[20]中提出的方法基于超像素,并且没有利用与多个尺度相关的信息。
多尺度CNN。 最近,从像素级预测任务的多个尺度组合信息的问题引起了相当大的兴趣。 在[33]中,提出了一种深度监督的完全卷积神经网络用于边缘检测。 跳过层网络,其中从主要网络的不同级别导出的特征映射在输出层中被共同考虑,也变得非常流行[22,3]。 其他工作被认为是多流体系结构,其中多个并行网络接收不同规模的输入被融合[4]。 在不同的深度网络模型中也使用了扩张的卷积(例如扩张或睾丸),以便聚合多尺度的背景信息[5]。 我们不知道以前将多尺度表示用于连续CRF框架的工作。
3.多尺度模型用于深度估计
在本节中,我们将介绍我们从单个图像进行深度估计的方法。 我们首先将深度预测问题正式化。 然后,我们描述了所提出的多尺度模型的两种变体,一种基于级联的CRF,另一种基于单个多尺度CRF。 最后,我们展示了如何对端到端的整个深度网络进行训练,为连续CRF中的均值迭代引入了一种新颖的CNN实现。
这里写图片描述
在之前的工作之后,我们制定了从单眼RGB输入进行深度预测的任务,作为学习非线性映射F:从图像空间I到输出深度空间D的问题。
我们模型的第二个组成部分是融合块。如先前的作品[22,3,33]所示,从不同CNN层生成的特征捕获补充信息。提出的融合块背后的主要思想是使用CRF有效地集成我们的前端CNN的侧输出映射,以进行稳健的深度预测。我们的方法源于这样的直觉:这些表示可以在顺序框架内组合,即以特定尺度执行深度估计,然后在随后的级别中细化所获得的估计。具体来说,我们引入并比较了两种不同的多尺度模型,这两种模型都基于CRF,并且对应于两种不同版本的融合块。第一个模型基于单个多尺度CRF,其集成了来自不同尺度的信息,并同时在相邻像素和相邻尺度的估计深度值之间实施平滑约束。第二个模型实现了一系列特定尺度的CRF:在每个尺度上,采用CRF从侧面输出图sl中恢复深度信息,每个CRF模型的输出用作后续模型的附加观测值。在3.2节中,我们详细描述了两个模型,而在3.3节中,我们展示了如何通过堆叠几个基本块来实现它们作为顺序深度网络。我们将这些块称为C-MF块,因为它们实现了连续CRF的平均场更新。
3.2. 将侧输出与连续CRF融合

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值