论文阅读：Improving Depth Completion via Depth Feature Upsampling

最新推荐文章于 2024-09-11 16:52:45 发布

Rander@

最新推荐文章于 2024-09-11 16:52:45 发布

阅读量557

点赞数 21

文章标签：论文阅读 python 图像处理深度学习

本文链接：https://blog.csdn.net/m0_56068762/article/details/140683752

版权

论文题目：Improving Depth Completion via Depth Feature Upsampling

代码地址：https://github.com/YufeiWang777/DFU/tree/main

总的来说是三个主要的点，

1、DFU，一个比较新颖的上采样结构，用来抵抗论文中发现的编码器解码器网络中出现的密集->稀疏的问题

2、CGM，一个置信度感知引导模块，用在DFU上采样结构中的，里面含有一个置信度特征图，还有一个自适应感受野的模块叫GARF

3、GARF，用在CGM里面的一个自适应感受野模块

图1

平常的深度修复结构大致是有跳连的编码器解码器结构，也就是图1里面(b)(c)的结构，(b)是单分支的编码器解码器结构，(c)是双分支的编码器解码器结构，上采样部分都是一样的，在一步步上采样的同时，与编码器分辨率大小一样的编码器部分的特征图进行跳连，使得编码器部分的稀疏特征图变得密集。

这里我就得提一下说法，之前我是认为解码器的特征图是主要的，编码器部分的特征图连接过来是作为补充的，但是这篇论文却说编码器部分的特征图是稀疏的，一步步下采样后特征图是密集的，然后把这个密集的传给解码器了，于是解码器的特征图是密集的，所以和编码器的特征图连接以后，其实是解码器的密集特征图是对编码器的特征图进行补充的，有点颠覆我的认识哈。而论文中提到密集->稀疏的过程就是解码器本来得到的是已经经过层层下采样和编码过后的密集深度信息，但是却一步步和编码器特征图跳连，这就把编码器特征图的稀疏特性结合在一起了，造成了一个密集->稀疏的逆序。

然后DFU结构就是把解码器几个融合的特征图作为输入，和低分辨率特征图一起进行处理，低分辨率特征图就是对原始稀疏深度图的一系列下采样，就和编码器差不多，得到的是密集深度信息的低分辨率图像，但是还没有和编码器特征图的稀疏性搞在一起，那么DFU是怎么进行避免的呢？下面结合图结构说明。

图2 CGM结构图

这里面我觉得起最大作用的是CGM结构里面的(1-confidence)x(fgdi)，就是图2里面的红框部分，GARF结构就是图2的下面那部分。CGM最后是两部分进行相加，一部分是ci（置信度图）和fddi的点乘，一部分则是(1-confidence)x(fgdi)，fddi是低分辨率特征图，fgi则是解码器部分的融合特征图。

ci（置信度图）是将引导特征fgi和深度特征fddi按照通道方向进行叠加，然后经过conv，再经过sigmoid将特征图数值归一化到0-1获得的，置信度图再和fddi进行点乘，就把带着概率权重的置信度数值和原始特征图的数值进行相乘了，达到赋予深度信息置信度的目的。

fgdi其实就是GARF模块的输出，里面具体到底是干嘛的俺也没有真的搞清楚，反正都是对特征的正面处理，这里我指的正面处理就是没有对深度信息值进行什么1-之类的处理，就把他看作是卷积嘛，然后和(1-confidence)进行相乘，1-confidence，不就是把置信度高的变低了，置信度低的变高了，然后fgdi就会把注意力放到置信度低的地方，置信度低不就是因为稀疏深度值造成的嘛，也就是稀疏性，这就把特征图里面的稀疏性中和了嘛

这里面呢我的理解就到这了，那个GARF结构，不知道到底干嘛的，说是自适应感受野，到底怎么个自适应法我也没看懂，还有代码里面，不同阶段的DFU处理后都有一个密集深度图，代码里是把这几个阶段都放入一个列表了，但是最后计算损失的时候居然没有一个个取出来计算，直接就算了，这玩意咋算啊，没看懂没看懂，有大神知道的，也可以评论区给我解惑哈