论文笔记：Deeper Depth Prediction with Fully Convolutional Residual Networks

最新推荐文章于 2024-08-12 09:05:25 发布

snoopy_21

最新推荐文章于 2024-08-12 09:05:25 发布

阅读量724

点赞数

分类专栏：深度学习计算机视觉

本文链接：https://blog.csdn.net/qq_29598161/article/details/106652577

版权

深度学习同时被 2 个专栏收录

50 篇文章 7 订阅

订阅专栏

计算机视觉

35 篇文章 9 订阅

订阅专栏

一、基本信息

标题：Deeper Depth Prediction with Fully Convolutional Residual Networks
时间：2016
引用格式：Laina I, Rupprecht C, Belagiannis V, et al. Deeper depth prediction with fully convolutional residual networks[C]//2016 Fourth international conference on 3D vision (3DV). IEEE, 2016: 239-248.

二、研究背景

In this work, we propose to learn the mapping between a single RGB image and its corresponding depth map using a CNN.

三、创新点

我们的方法使用一个CNN的深度估计,与以前的工作的不同之处在于,它提高了典型的全层,这是昂贵的对参数的数量,与一个完全卷积模型结合高效的残余up-sampling块,我们称之为up-projections时被证明是更适合处理高维回归问题。

输入图片的大小是网络设计的重要部分：
AlexNet：输入为 151 * 151 分辨率太低
VGG：输入为276 * 276 单仍要限制输入分辨率
ResNet-50：输入为483 * 483（更深的网络带来更大的接收域）
在这里插入图片描述
输入：304 * 228 * 3
第一部分基于ResNet-50(初始化了和预训练权重)
第二部分是unpooling（上采样池化？）和（反？）卷积
最后dropout - 预测

Up-Projection Blocks

1 使用小卷积代替大卷积，实现上采样
首先我们先要明白，为什么作者这么做，传统的反卷积以及双线性插值到底存在什么问题。反卷积，得到的结果存在很强的棋盘效应。双线性插值，得到的结果边缘模糊，噪声很大。那么FCRN中采用小卷积代替大卷积，一方面，可以使棋盘效应降低，一方面，尽量的保留边缘信息。当然啦，依照FCRN中所说，可以提升其速度，毕竟这样可以减小参数嘛。
————————————————
版权声明：本文为CSDN博主「yjl9122」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/yjl9122/article/details/78670009

在这里插入图片描述
上采样的意思，使用2 *2 扩大，映射到左上角，然后5 * 5卷积
c是使用了残差，作者称为上投影(projection connection)，向上投影块的链接使高级信息在网络中更有效地向前传递，同时逐步增加feature map的大小。

Fast Up-Convolutions

更快的结构，提升了15%速度。
在这里插入图片描述
输入-池化-卷积（55）-输出
|-卷积（3 * 3） + 卷积（3 2）+ 卷积（2 * 3） + 卷积（2 * 2）- 输出

损失函数

L1和L2损失函数对比
在这里插入图片描述
作者发现 reverse Huber (berHu)作为损失函数优于L2范数损失函数

$\mathcal{B}(x)=\left\{\begin{array}{ll} |x| & |x| \leq c \\ \frac{x^{2}+c^{2}}{2 c} & |x|>c \end{array}\right.$
其中 $c=\frac{1}{5} \max _{i}\left(\left|\tilde{y}_{i}-y_{i}\right|\right)$ ，i为当前batch的每个突破的每个像素，|x|<= c时就是L1范数，|x| > c时是L2范数。
为什么更好呢？因为berHu能够平衡L1和L2

高残差的样本/像素使用L2可以提高权重
L1对较小残差梯度的影响要大于L2

四、实验结果

在这里插入图片描述

还展示了SLAM中应用
在这里插入图片描述

虽然不能相信精度比得上Sfm或者单目SLAM，但是因为本文方法没有基于特征匹配，可能在纹理较少情况下可以帮助SLAM追踪。

五、结论与思考

作者结论

在这项工作中，我们提出了一种新的方法，以解决从单一图像的深度估计问题。与典型的CNN方法不同，典型的CNN方法需要一个多步骤的过程来改进他们最初的粗糙深度预测，我们的方法包含一个强大的、单尺度的CNN架构，它遵循剩余学习。提出的网络是完全卷积的，包括向上投影层，允许训练更深层次的配置，同时大大减少了需要学习的参数数量和所需的训练样本数量。此外，我们还演示了一种更快、更有效的上行卷积层方法。通过优化典型的l2损失和berHu损失函数，我们对不同的建筑构件进行了全面的评估，结果表明，berHu损失函数更适合于ground truth depth地图的潜在值分布。总而言之，我们贡献的模型不仅比现有的方法更简单，可以用更少的数据在更短的时间内进行训练，而且可以获得更高质量的结果，这使得我们的方法在两个基准数据集上达到了最先进的深度估计。