《End-to-End Learning of Geometry and Context for Deep Stereo Regression》

最新推荐文章于 2022-10-06 16:36:56 发布

爱钻研的小铭

最新推荐文章于 2022-10-06 16:36:56 发布

阅读量887

点赞数 3

分类专栏：基于深度学习的深度估计文章标签： GCNet

本文链接：https://blog.csdn.net/qq_42676511/article/details/121455551

版权

基于深度学习的深度估计专栏收录该内容

35 篇文章 30 订阅

订阅专栏

代码，但这个代码表示论文源码，在2080TI上边运行总出现显存不足，这个问题留待以后解决。

1. 研究问题

使用深度卷积网络学习从图像对到视差图的端到端映射。

2. 研究方法

GCNet提出利用几何知识，使用深度特征的连接来构建 4D 成本量，然后通过使用3D convolutions对成本量进行正则化，学习上下文信息，最后使用可微的soft argmin从4D 成本量中回归亚像素视差。

在这里插入图片描述

2.1 Unary Features

通过一系列的卷积层和残差块来学习左右图像的一元特征。这里的一元特征其实就是特征向量，只是换了一个说法而已。这部分没什么亮点。

2.2 Cost Volume

这里不同于以往的基于特征相减或距离度量（dot multiply）来构建代价空间，本文的方法是提出直接将左右特征进行连接，实验证明这样做提高了性能。代价空间的大小为 $H * W * (D + 1) * F$ 。可能的原因是连接特征可以学习一个特征的绝对表示，使得网络可以学习到语义信息。比如，对于一个汽车挡风玻璃这样的反光表面，如果立体匹配算法只依靠这一反光表面的局部表现来计算几何特征很可能会出错。然而，如果理解了这一表面的语义信息（这是属于汽车的一部分），再去推断局部的几何特征就很有优势了。

具体的做法是：将左图每个一元特征与其在右图对应位置的一元特征进行连接，形成4D cost volumn。

2.3 Learning Context

对初始的成本量正则化，能够学习得到上下文信息，这样能够克服一些具有挑战性的场景，比如重复纹理，弱纹理区域等。

提出使用3D convolutions，沿着高、宽、视差三个维度进行卷积，学习上下文信息。

但3D convolutions 会导致庞大的计算量，因此，文章使用四级编码器-解码器架构。首先，下采样有助于增加每个特征的感受野，同时减少计算量。然而，它也会通过分辨率的损失降低空间精度和细粒度的细节。出于这个原因，在上采样之前通过跳跃连接添加了在下采样中同样分辨率的特征图，形成残差结构。这些残差层的好处是可以保留更完整的信息，而上采样的特征提供了具有更大空间分辨率的特征图，最后输出一个原始分辨率（ $H * W * D$ ）的细化的代价空间。