【菜鸟读论文】2019_Guided Stereo Matching

最新推荐文章于 2023-07-08 20:04:57 发布

soleillllling

最新推荐文章于 2023-07-08 20:04:57 发布

阅读量741

点赞数 1

分类专栏：立体匹配

本文链接：https://blog.csdn.net/qq_42344132/article/details/117256235

版权

立体匹配专栏收录该内容

16 篇文章 7 订阅

订阅专栏

摘要

1.介绍

2.相关工作

3.Guided Stereo Matching

3.1 Feature enhancement特征增强

3.2 Application of guided stereo应用

5.结论

https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/105336793

摘要

问题：立体匹配深度网络在处理新环境时，准确性会显著下降。

因此，本文提出Guided Stereo Matching，一种新的范例，利用了少量从外部源检索到的稀疏但可靠的深度测量值，从而改善了这一弱点。我们的方法所需要的额外稀疏线索可以通过任何策略（如激光雷达）获得，并用于增强与相应的视差假设相关的特征。我们的公式是通用的和完全可微的，因此能够利用预先训练的深度立体声网络中额外的稀疏输入，以及从头开始训练一个新的实例。在三个标准数据集和两个最先进的深度架构上进行的广泛实验表明，即使有一小组稀疏输入线索，i)提出的范式也能够对预先训练的网络进行显著的改进。此外，ii)从头开始的训练显著提高了对域位移的准确性和鲁棒性。最后，它是iii)是适合和有效的，即使是传统的立体算法，如SGM。

1.介绍

在本文中，我们建议利用一组稀疏深度测量来利用深度立体网络在任何环境中获得密集和准确的估计。

目标：特别是，给定一个深度网络和一个小集合（例如，不到整个图像点的5%）：我们可以在不需要再训练的情况下提高网络的整体精度吗？我们可以减少域移位问题吗？我们从零开始训练网络以利用稀疏测量值，是否能得到更好的结果？

本文的三个主张：

1.给定稀疏（<5%密度）深度输入，将我们的方法应用于预训练模型总是提高其精度，无论是当网络只在合成数据上训练，还是在目标环境上进行微调。

2.从稀疏输入引导的网络从零开始训练显著提高了其泛化能力，显著减少了域位移（例如，当从合成图像移动到真实图像时）造成的差距。

3.该策略甚至可以无缝地应用于传统的立体声算法，如SGM。

2.相关工作

成本体积计算大致分为两类：

1.第一类由计算左右帧特征之间相关分数的网络组成。输出是特征图，连接到视差假设，沿着通道维数拼接。这个卷是通过二维卷积来处理的，通常是通过编码器-解码器架构。

2.第二类由构建通过连接或左右特征差异之间获得的三维成本卷（实际上，考虑特征维度就是4D）的框架组成。这种数据结构通过三维卷积处理，最终的视差图是可微分赢家所有(WTA)策略的结果。

3.Guided Stereo Matching

给定从外部源收集的稀疏但精确的深度信息，如激光雷达或任何其他手段，我们的主要目标是利用这些线索来帮助最先进的深度学习框架进行立体匹配。为此，我们引入了一种特征增强技术，它直接作用于CNN内部处理的中间特征，通过达到那些直接与外部测量建议的深度值相关的峰值。

3.1 Feature enhancement特征增强

传统的立体算法将立体对中两幅图像的潜在对应像素之间的关系收集成成本量，即编码相似度或不同函数。传统立体算法的成本体积维数为H×W×D，H×W是输入立体对的分辨率，D为最大视差位移，而最先进的深度立体网络分别依赖于维度数据结构，H×W×(2D+1)[19]和H×W×D×2F[12]，F是单个图像的特征数。

[12]Stereonet: Guided hierarchical refifinement for real-time edge-aware depth prediction.

[19]A large dataset to train convolutional networks for disparity, optical flflow, and scene flflow estimation.

给定稀疏深度测量z，我们可以通过了解获得立体对的焦距f和基线b很容易地将它们转换为差异d，如d=b·f/z。

利用视差域中稀疏外部数据的可用性，我们可以利用它们来达到相关分数最高值或与这些稀疏提示提出的假设相关的特征激活，并抑制其余的提示。例如，给定k的视差值，我们将增强相关层的第k通道输出或四维卷的第k片输出。为了我们的目的，我们引入了两个新的输入，都大小为H×W：一个（稀疏）矩阵G（传递外部提供的视差值）和一个二进制掩码V（指定G中哪个元素有效，if vij=1）。对于参考图像中每个具有坐标(i、j)的像素，这样对于vij=1，我们就可以根据已知的视差值gij来改变前面讨论的特征。另一方面，具有vij=0的每一个点都未被触及。因此，我们依赖于深度网络的能力来推理立体声，并共同利用稀疏输入所传递的额外信息。

我们建议调制使用以gij为中心的高斯函数，这样单相关分数或2F特征对应的差距d=gij 乘以函数的峰值，而任何其他元素逐渐乘以较低的因素，直到被抑制从gij越远。

其中c决定了高斯值的宽度，而k表示它的最大允许值，应该大于或等于1。

当vij=0时，使重量系数等于1。图3（左）所示说明调制效果。

3.2 Application of guided stereo应用

预先训练好的深度立体声网络。所提出的高斯增强平稳但有效地作用于已经由深度网络学习到的特征。有机会地调整超参数k和c，我们将证明我们的方法允许提高预先训练的最先进的网络的准确性。

从零开始训练深度立体声网络。高斯函数引入的阻尼机制仍然允许梯度流动，使得该技术适合在训练时部署在CNN内部，以便它可以从零开始学习如何更好地利用额外的线索。具体而言，G相对于权值W的梯度将计算如下：

传统的立体匹配算法。在部署不同度量时，应降低接近gij的成本，而其他成本应放大。我们可以通过选择一个常数函数和高斯函数之间的差来很容易地适应高斯增强，从初始代价F中得到一个增强的体积G。图3（右）显示了该公式的效果。

5.结论

未来工作的重点将是设计策略来指导我们的方法，而不依赖于主动传感器。例如，利用置信度度量[25]选择可靠的深度标签——因为该策略被证明对自监督适应[36,37]和训练基于学习的置信度量[38]是成功的——或者来自视觉立体测深系统[41]的输出。

soleillllling

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
4
评论
【菜鸟读论文】2019_Guided Stereo Matching

目录摘要1.介绍2.相关工作3.Guided Stereo Matching3.1 Feature enhancement特征增强3.2 Application of guided stereo应用5.结论https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/105336793摘要问题：立体匹配深度网络在处理新环境时，准确性会显著下降。因此，本文提出Guided Stereo Matching，一种新的.
复制链接

扫一扫