Abstract
在多尺度层面上,以不同尺度生成四个4D组合体,并将它们与编解码器过程相结合来预测初始视差估计。
在多维层次上,构造了一个3D扭曲相关体(3D warped correlation volume),并利用它对初始视差图进行残差学习。
这两个维度的代价是相辅相成的,可以提高视差估计的性能。此外还提出了一种切换训练策略,以缓解预训练过程中出现的过拟合问题,进一步提高最终视差估计的泛化能力和精度。
Motivation
实际场景不仅需要具有最先进性能的方法,还需要实时速度和跨领域泛化,现有方法不能在这些需求中得到很好的均衡。
MSMD的优势:高精度,高效率,强泛化能力(仅在sf上训练后直接测试kitti错误率更低)。
Core idea
MSMD-Net由三部分组成:特征提取,提取多尺度特征用于后续成本量构建;代价体积集成,用于融合4D多尺度成本量生成初始视差值;几何引导视差细化,利用立体视觉几何信息构造三维扭曲代价体积来细化初始视差。这两个维度的代价体积是互补的,可以提高差异估计的性能和泛化。
在以往的工作中,主要依靠网络自动学习输入信息和残差之间的映射,而不使用立体视觉的几何结构。相比之下,我们提出了