深度估计（二）

是万啊

已于 2022-12-30 22:48:32 修改

阅读量765

点赞数 1

文章标签：深度学习人工智能计算机视觉

于 2022-12-30 22:48:08 首次发布

本文链接：https://blog.csdn.net/qq_41769706/article/details/128403459

版权

论文：Monocular Depth Estimation Using Laplacian Pyramid-Based Depth Residuals（基于拉普拉斯金字塔深度残差的单目深度估计）

第四招：特征融合

在这里插入图片描述
如图，经过前三招以后，得到了输入图像的各种特征图，接下来就是对得到这些特征图就是融合。
R₅怎么来的呢？
它是由S/16的特征图经过ASPP以后，再进行一系列的卷机得到。其中最后一次卷积时输出的特征图个数为1，则就生成了R₅，即输出一个含有深度信息的特征图。
所以，简单来说，R₅是由原始图像经过一系列的卷积，再加上ASPP以后得到的，所以得到的特征信息就比较简单（比较片面），因为此时还没有用到差异信息，以及其他阶段的特征信息，比如S/8、S/4和S/2。

R₄怎么来的呢？
在这里插入图片描述
如图，由四个部分拼接而成。
第一部分：由S/16特征图的ASPP模块上采样得到，即Upconv block，即蓝色块。而红色块则是由S/8特征图经过卷积得到的。
第二部分：差异L₄，它作用于两处，第一处和第一部分、第三部分拼接，形成第四部分；第二处是和第四部分拼接形成R₄。
第三部分：由R₅经过上采样得到
第四部分：由第一部分、第二部分和第三部分经过拼接以后，再卷积得到。

R₄相对于R₅来说，所蕴含的信息就更加的丰富。因为它既包括了差异信息L₄，又有了本身S/8特征图信息（第一部分中的红色块）、S/16特征图信息（第一部分中的蓝色块）、R₅的信息（第三部分）。所以，简单说，R₄就是把之前的信息进行汇总得到的结果。

同理，继续做拼接、上采样就能得到R₃、R₂和R₁。

第五招：Coarse-to-Fine

所研究的目标就是D₅、D₄、D₃、D₂和D₁怎么得到的。
在这里插入图片描述
得到的过程其实也很简单，D₅就是R₅。
D₄是对D₅进行上采样，然后再和R₄拼接形成。
D₃是对D₄进行上采样，然后再和R₃拼接形成。
D₂是对D₃进行上采样，然后再和R₂拼接形成。
D₁是对D₂进行上采样，然后再和R₁拼接形成。
过程很简单，但是这里蕴含的思想却很有意思，即Coarse-to-Fine。即由粗到细，或者说是由简约到精细。

什么意思呢？
先看D₅，它就是R₅。而R₅又是由原始特征图经过一系列卷积卷积，最后输出得到的，所以R₅特征图信息很少，或者说很片面。这个片面就是说它没有借鉴或者融合其他特征图的信息，比如差异的信息，或者其他倍数（S/8、S/4、S/2）特征图的信息。虽然R₅经过输出以后，它也能反应图片的深度信息，但是由于它片面了，信息少了，所以导致得到的结果就很“粗”。

而在第四招，即特征融合的相关操作，就是不断的去叠加各种信息，从而为最后得到的R₁做铺垫，这其实就是不断“精细”的过程。这也就是Coarse-to-Fine的思想。