论文笔记:Deeper Depth Prediction with Fully Convolutional Residual Networks

一、基本信息

标题:Deeper Depth Prediction with Fully Convolutional Residual Networks
时间:2016
引用格式:Laina I, Rupprecht C, Belagiannis V, et al. Deeper depth prediction with fully convolutional residual networks[C]//2016 Fourth international conference on 3D vision (3DV). IEEE, 2016: 239-248.

二、研究背景

In this work, we propose to learn the mapping between a single RGB image and its corresponding depth map using a CNN.

三、创新点

我们的方法使用一个CNN的深度估计,与以前的工作的不同之处在于,它提高了典型的全层,这是昂贵的对参数的数量,与一个完全卷积模型结合高效的残余up-sampling块,我们称之为up-projections时被证明是更适合处理高维回归问题。

输入图片的大小是网络设计的重要部分:
AlexNet: 输入为 151 * 151 分辨率太低
VGG:输入为276 * 276 单仍要限制输入分辨率
ResNet-50:输入为483 * 483(更深的网络带来更大的接收域)
在这里插入图片描述
输入:304 * 228 * 3
第一部分基于ResNet-50(初始化了和预训练权重)
第二部分是unpooling(上采样池化?)和(反?)卷积
最后dropout - 预测

Up-Projection Blocks

1 使用小卷积代替大卷积,实现上采样
首先我们先要明白,为什么作者这么做,传统的反卷积以及双线性插值到底存在什么问题。反卷积,得到的结果存在很强的棋盘效应。双线性插值,得到的结果边缘模糊,噪声很大。那么FCRN中采用小卷积代替大卷积,一方面,可以使棋盘效应降低,一方面,尽量的保留边缘信息。当然啦,依照FCRN中所说,可以提升其速度,毕竟这样可以减小参数嘛。
————————————————
版权声明:本文为CSDN博主「yjl9122」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/yjl9122/article/details/78670009

在这里插入图片描述
上采样的意思,使用2 *2 扩大,映射到左上角,然后5 * 5卷积
c是使用了残差,作者称为上投影(projection connection),向上投影块的链接使高级信息在网络中更有效地向前传递,同时逐步增加feature map的大小。

Fast Up-Convolutions

更快的结构,提升了15%速度。
在这里插入图片描述
输入-池化-卷积(55)-输出
|-卷积(3 * 3) + 卷积(3
2)+ 卷积(2 * 3) + 卷积(2 * 2)- 输出

损失函数

L1和L2损失函数对比
在这里插入图片描述
作者发现 reverse Huber (berHu)作为损失函数优于L2范数损失函数

B ( x ) = { ∣ x ∣ ∣ x ∣ ≤ c x 2 + c 2 2 c ∣ x ∣ > c \mathcal{B}(x)=\left\{\begin{array}{ll} |x| & |x| \leq c \\ \frac{x^{2}+c^{2}}{2 c} & |x|>c \end{array}\right. B(x)={x2cx2+c2xcx>c
其中 c = 1 5 max ⁡ i ( ∣ y ~ i − y i ∣ ) c=\frac{1}{5} \max _{i}\left(\left|\tilde{y}_{i}-y_{i}\right|\right) c=51maxi(y~iyi),i为当前batch的每个突破的每个像素,|x|<= c时就是L1范数,|x| > c时是L2范数。
为什么更好呢?因为berHu能够平衡L1和L2

  • 高残差的样本/像素使用L2可以提高权重
  • L1对较小残差梯度的影响要大于L2

四、实验结果

在这里插入图片描述

还展示了SLAM中应用
在这里插入图片描述

虽然不能相信精度比得上Sfm或者单目SLAM,但是因为本文方法没有基于特征匹配,可能在纹理较少情况下可以帮助SLAM追踪。

五、结论与思考

作者结论

在这项工作中,我们提出了一种新的方法,以解决从单一图像的深度估计问题。与典型的CNN方法不同,典型的CNN方法需要一个多步骤的过程来改进他们最初的粗糙深度预测,我们的方法包含一个强大的、单尺度的CNN架构,它遵循剩余学习。提出的网络是完全卷积的,包括向上投影层,允许训练更深层次的配置,同时大大减少了需要学习的参数数量和所需的训练样本数量。此外,我们还演示了一种更快、更有效的上行卷积层方法。通过优化典型的l2损失和berHu损失函数,我们对不同的建筑构件进行了全面的评估,结果表明,berHu损失函数更适合于ground truth depth地图的潜在值分布。总而言之,我们贡献的模型不仅比现有的方法更简单,可以用更少的数据在更短的时间内进行训练,而且可以获得更高质量的结果,这使得我们的方法在两个基准数据集上达到了最先进的深度估计。

总结

一篇较为复杂CNN预测深度论文,作者结合那时先进方法,想全卷积,残差网络,参数新的损失函数,取得了不错效果。

思考

看了下大家对这个网络看法,只在论文数据集上表现好。
如今很多网络基于无监督学习,这样可以在自己数据集上也有较好效果吧。

参考

(论文阅读)Deeper Depth Prediction with Fully Convolutional Residual Networks
[读论文]用全卷积Res网络做深度估计
Deeper Depth Prediction with Fully Convolutional Residual Networks

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值