一、基本信息
标题:Deeper Depth Prediction with Fully Convolutional Residual Networks
时间:2016
引用格式:Laina I, Rupprecht C, Belagiannis V, et al. Deeper depth prediction with fully convolutional residual networks[C]//2016 Fourth international conference on 3D vision (3DV). IEEE, 2016: 239-248.
二、研究背景
In this work, we propose to learn the mapping between a single RGB image and its corresponding depth map using a CNN.
三、创新点
我们的方法使用一个CNN的深度估计,与以前的工作的不同之处在于,它提高了典型的全层,这是昂贵的对参数的数量,与一个完全卷积模型结合高效的残余up-sampling块,我们称之为up-projections时被证明是更适合处理高维回归问题。
输入图片的大小是网络设计的重要部分:
AlexNet: 输入为 151 * 151 分辨率太低
VGG:输入为276 * 276 单仍要限制输入分辨率
ResNet-50:输入为483 * 483(更深的网络带来更大的接收域)
输入:304 * 228 * 3
第一部分基于ResNet-50(初始化了和预训练权重)
第二部分是unpooling(上采样池化?)和(反?)卷积
最后dropout - 预测
Up-Projection Blocks
1 使用小卷积代替大卷积,实现上采样
首先我们先要明白,为什么作者这么做,传统的反卷积以及双线性插值到底存在什么问题。反卷积,得到的结果存在很强的棋盘效应。双线性插值,得到的结果边缘模糊,噪声很大。那么FCRN中采用小卷积代替大卷积,一方面,可以使棋盘效应降低,一方面,尽量的保留边缘信息。当然啦,依照FCRN中所说,可以提升其速度,毕竟这样可以减小参数嘛。
————————————————
版权声明:本文为CSDN博主「yjl9122」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/yjl9122/article/details/78670009
上采样的意思,使用2 *2 扩大,映射到左上角,然后5 * 5卷积
c是使用了残差,作者称为上投影(projection connection),向上投影块的链接使高级信息在网络中更有效地向前传递,同时逐步增加feature map的大小。
Fast Up-Convolutions
更快的结构,提升了15%速度。
输入-池化-卷积(55)-输出
|-卷积(3 * 3) + 卷积(3 2)+ 卷积(2 * 3) + 卷积(2 * 2)- 输出
损失函数
L1和L2损失函数对比
作者发现 reverse Huber (berHu)作为损失函数优于L2范数损失函数
B
(
x
)
=
{
∣
x
∣
∣
x
∣
≤
c
x
2
+
c
2
2
c
∣
x
∣
>
c
\mathcal{B}(x)=\left\{\begin{array}{ll} |x| & |x| \leq c \\ \frac{x^{2}+c^{2}}{2 c} & |x|>c \end{array}\right.
B(x)={∣x∣2cx2+c2∣x∣≤c∣x∣>c
其中
c
=
1
5
max
i
(
∣
y
~
i
−
y
i
∣
)
c=\frac{1}{5} \max _{i}\left(\left|\tilde{y}_{i}-y_{i}\right|\right)
c=51maxi(∣y~i−yi∣),i为当前batch的每个突破的每个像素,|x|<= c时就是L1范数,|x| > c时是L2范数。
为什么更好呢?因为berHu能够平衡L1和L2
- 高残差的样本/像素使用L2可以提高权重
- L1对较小残差梯度的影响要大于L2
四、实验结果
还展示了SLAM中应用
虽然不能相信精度比得上Sfm或者单目SLAM,但是因为本文方法没有基于特征匹配,可能在纹理较少情况下可以帮助SLAM追踪。
五、结论与思考
作者结论
在这项工作中,我们提出了一种新的方法,以解决从单一图像的深度估计问题。与典型的CNN方法不同,典型的CNN方法需要一个多步骤的过程来改进他们最初的粗糙深度预测,我们的方法包含一个强大的、单尺度的CNN架构,它遵循剩余学习。提出的网络是完全卷积的,包括向上投影层,允许训练更深层次的配置,同时大大减少了需要学习的参数数量和所需的训练样本数量。此外,我们还演示了一种更快、更有效的上行卷积层方法。通过优化典型的l2损失和berHu损失函数,我们对不同的建筑构件进行了全面的评估,结果表明,berHu损失函数更适合于ground truth depth地图的潜在值分布。总而言之,我们贡献的模型不仅比现有的方法更简单,可以用更少的数据在更短的时间内进行训练,而且可以获得更高质量的结果,这使得我们的方法在两个基准数据集上达到了最先进的深度估计。
总结
一篇较为复杂CNN预测深度论文,作者结合那时先进方法,想全卷积,残差网络,参数新的损失函数,取得了不错效果。
思考
看了下大家对这个网络看法,只在论文数据集上表现好。
如今很多网络基于无监督学习,这样可以在自己数据集上也有较好效果吧。
参考
(论文阅读)Deeper Depth Prediction with Fully Convolutional Residual Networks
[读论文]用全卷积Res网络做深度估计
Deeper Depth Prediction with Fully Convolutional Residual Networks