5.Deeper Depth Prediction with Fully Convolutional Residual Networks

论文在这儿

大体介绍

为了解决单目RGB图像的深度估计问题,本篇论文提出了一个包含残差学习的全卷积结构(fully convolutional architecture),进行端到端训练,并不需要进行像CRFs之类的后处理操作。为了能够提高输出分辨率,在神经网络中加入了上采样(up-sampling)。同时采用能由深度图中常见的值分布进行驱动的reverse Huber loss进行优化。这个模型比起现行效果很好的模型需要更少的参数和训练数据。
大体步骤为:
首先引入了一个有上采样块(up-sampling blocks)的全卷积结构进行深度估计。这个结构能够产生高分辨率的密集输出图,同时需要很少的参数和比现行很好效果的模型少一个数量级的数据训练。

然后,进一步提出了一种更有效的上卷积(up-convolutions)方案,并将其与残差学习(residual learning)的概念相结合,建立投影块(up-projection blocks),以实现feature maps的有效上采样。

并且,使用基于the reverse Huber function(berHu)的损失函数优化网络,我们深入评估了网络深度、损失函数和用于上采样的特定层的影响,以分析它们的效益。

最后,为了进一步评价我们方法的精确度,我们采用了一个三维重建场景的训练模型,其中我们使用一系列RGB帧及其预测的深度图进行同步定位和映射(SLAM)。

CNN Architecture

在这里插入图片描述
该网络的第一部分基于ResNet-50,并用预先训练好的权值初始化。第二部分引导网络通过一系列上池化(un-pooling)层和卷积层来学习它的up-scaling。在这些上采样块的集合之后,应用dropout并通过由产生预测的最终卷积层获得成功

①Up-Projection Blocks

上采样、上池化、反卷积的理解

在这里插入图片描述
使用上池化层,通过将每个entry映射到一个2x2(zero) kernel的左上角来使size加倍。(这也可以增加特征图的空间分辨率)每个上池化层后边有一个5x5的卷积层(使用ReLU激活函数),我们把这个block称之为up-convolution。经验性的,我们把四个这样的up-convolutional blocks堆叠,可以在内存消耗和分辨率之间产生很好的协调。(5个blocks进行堆叠的话效果就不好了qaq)

然后我们通过在up-convolution后加上一个3x3卷积,并且增加了一个从低分辨率特征图到结果的projection connection来创建一个up-sampling res-blocks。注意,由于尺寸的不同,需要在projection分支中使用另一个上卷积对小尺寸图进行上采样,但由于两个分支只需使用一次上池化,所以我们只需在两个分支上分别应用5×5卷积,我们把这个新的up-sampling block叫做up-projection。

②Fast Up-Convolutions

在这里插入图片描述

在上池化后,75%的特征映射包含零,因此下面的5×5卷积主要在零上进行,这在我们的修正公式中是可以避免的。

在左上角,原始特征图是上池化的(top middle),然后由5×5滤波器卷积。我们观察到,在上池化特征映射中,根据5×5滤波器的位置(红色、蓝色、紫色、橙色边界框),只有某些权重与潜在的非零值相乘。

这些权重分为四个不重叠的组,用不同的颜色和图中的A、B、C、D表示。根据滤波器组,我们将原来的5×5滤波器分为4个新的滤波器,分别为(A)3×3,(B)3×2,(C)2×3和(D)2×2。与原始操作(上池化和卷积)完全相同的输出现在可以通过交错四个产生的特征映射的元素来实现,如图3所示。

Loss Function

使用berHu损失函数。
在这里插入图片描述

实验对比

在这里插入图片描述自己进行的实验结果:
ground-truth:
在这里插入图片描述
result:
在这里插入图片描述

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
最近,对于图神经网络的研究日益深入,引起了广泛关注。图神经网络是一种能够对图数据进行建模和分析的神经网络模型。它可以处理任意结构的图形数据,如社交网络、蛋白质互作网络等。 在过去的几年中,研究者们提出了许多图神经网络的模型和方法。然而,这些方法仍然面临一些挑战,例如有效地处理大型图形数据、学习高质量的图嵌入表示以及推理和预测复杂的图结构属性等。 为了克服这些挑战,研究人员开始通过增加神经网络的深度来探索更深的图神经网络模型。深度模型具有更强大的表达能力和学习能力,可以更好地捕捉图数据中的关系和模式。这些深层图神经网络可以通过堆叠多个图神经网络层来实现。每个图神经网络层都会增加一定的复杂性和抽象级别,从而逐渐提高图数据的表达能力。 除了增加深度外,研究人员还提出了一些其他的改进来进一步提高图神经网络的性能。例如,引入注意力机制可以使模型能够自动地选择重要的节点和边来进行信息传播。此外,研究人员还研究了如何通过引入图卷积操作来增强图数据的局部性,从而提高图神经网络模型的效果。 综上所述,对于更深层的图神经网络的研究将在处理大规模图形数据、学习高质量的图表示以及进行复杂图结构属性的推理方面取得更好的性能。随着深度图神经网络的推广和应用,我们可以预见它将在许多领域,如社交网络分析、推荐系统和生物信息学中发挥重要作用,为我们带来更多的机遇和挑战。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值