目录
摘要:
在本文中,我们提出了一种基于级联融合成本体积的CFNet网络,以提高立体匹配网络的鲁棒性。首先,我们提出了一个融合的成本体积表示来处理大的域差异。通过融合多个低分辨率的密集成本体积来扩大接受场,我们可以提取鲁棒的结构表示的初始视差估计。其次,我们提出了一个级联成本体积表示来缓解不平衡的差异分布。
1.介绍
问题:
1.目前最先进的方法通常局限于一个特定的数据集,我们需要推动方法的鲁棒性,并在具有固定的模型参数和超参数的不同数据集上表现良好。
2.设计鲁棒立体匹配系统的困难来自于各种数据集之间的大域差异和各种数据集之间的不平衡视差分布。
提出方法:
(1)针对大的领域差异,我们建议融合多个低分辨率的密集的成本体积(不同规模的低分辨率成本体积可以覆盖多尺度的接受域,并在促进网络观察不同尺度的图像区域方面相互互补),引导网络学习不同数据集不变的几何场景信息,以扩大捕获全局和结构表征的接受域。此操作只增加了轻微的计算复杂度。
(2)针对不平衡的视差分布,我们提出了一种级联成本体积表示,并采用基于方差的不确定性估计来自适应地调整下一阶段的视差搜索范围。也就是说,我们的方法只需要在第一阶段涵盖所有数据集的视差分布(视差范围)的并集。然后,我们可以利用我们的不确定性估计来评估视差估计的像素级置信度,并删除不太可能的对应关系,指导我们的网络在下一阶段查看更多可能的视差搜索空间。此外,我们还可以通过删除不太可能出现的对应关系来节省大量的计算复杂度。
2.相关工作
2.1 基于成本容量的深度立体声匹配
通常,成本体积是一个包含高度、宽度、视差和特征的四维张量。目前最先进的立体声匹配方法都是基于成本体积的方法,它们可以分为两类。
1)第一类利用完全相关性,生成一个单一特征的3D成本。这些方法通常是有效的,但由于特征通道的抽取而丢失了大量的信息。许多以前的工作,包括Dispnet[18],MADNet[29],和AANet[32],都属于这个类别。
2)第二类通常使用连接[14]或组相关[12]来生成多特征四维成本量。这种方法可以提高性能,同时需要更高的计算复杂度和内存消耗。
2.2 基于多规模成本体积的深度立体声匹配
2.3 鲁棒的立体匹配
这些方法可以大致分为两种类型。
1)跨域推广:这类旨在提高网络到看不见的场景的泛化。
2)联合推广:这类方法旨在推动网络在具有相同模型参数的各种数据集上表现良好。
3.我们的方法
3.1 Overview
我们提出了一种级联和融合成本体积表示的鲁棒立体匹配。我们的模型的整体架构如图4所示。它由金字塔特征提取、融合成本量、级联成本量三部分组成。
给定一个图像对,我们首先使用一个具有跳过连接的类[33,21]编码-解码器架构来提取多尺度的图像特征。该编码器由五个残余块组成,然后是一个SPP模块,以更好地包含分层上下文信息。
SPP模块类似于HSMNet中使用的模块,将平均池化块的大小更改为H/s*W/s,其中s∈{32、64、96、128}。与广泛使用的类Resnet网络[11,12]相比,我们的方法更有效,并且仍然包含足够的信息来进行成本聚合。
然后,我们将多尺度特征分为融合和级联成本体积,并分别预测多分辨率的差异。
3.2 融合成本体积
构建成本体积:
受[26,12]的启发,我们建议同时使用特征连接和群向相关性来生成组合卷。组合体积的计算方法为:
||:表示向量连接操作
Nc:表示提取的特征的通道。
Ng:组的数量
fi表示按比例i(阶段)提取的特征,i=0表示原始输入图像分辨率
成本体积融合:
根据在[26]中提出的方法,我们使用一种改进的编码器-解码器架构来融合低分辨率的成本容量。该架构如图5所示。
具体地说,我们首先使用四个具有跳过连接的三维卷积层来规范每个成本体积(前四个蓝色的块),并使用三维卷积层(两步)将比例3的组合体积从输入图像分辨率的1/8降到1/16。接下来,我们将它们(下采样的成本体积和下一阶段的组合卷)连接在特征维度上,然后通过一个额外的三维卷积层将特征通道减少到一个固定的大小。然后,我们应用类似的操作来逐步将成本体积下采样到原始输入图像分辨率的1/32,并采用三维转置卷积对解码器中的体积进行上采样。此外,我们利用一个三维沙漏网络来进一步规范和细化卷。最后,应用一个输出模块来预测差异。输出模块包含另外两个三维卷积层,目的是获得1通道4D卷。
为了将体积转换为视差,我们应用soft argmin操作来生成初始视差图D3。soft argmin操作的定义为:
c表示预测的1通道4D体积。
σ(−cd)表示离散的视差概率分布,估计的视差图易受所有视差指数的影响。
3.3 级联成本体积
此外,不适定区域、无纹理区域和遮挡区域往往是多模态分布和高估计错误率。因此,我们提出定义一个不确定性估计来量化成本量趋于多模态分布的程度,并利用它来评估当前估计的像素级置信度。不确定性的定义为:
如图6所示,单模态分布的不确定性等于0,概率分布越接近多模态分布,不确定性和误差就越高。因此,利用不确定度来评估视差估计的置信度是合理的,较高的不确定性意味着预测误差的概率较高,以及更大的视差搜索空间来纠正误差估计(可视化如图8所示)
因此,下一阶段的差异搜索范围被定义为:
δ表示双线性插值。α和β是归一化因子,它被初始化为0,并逐渐学习一个权重。α和β也可以设置为超参数,而实验表明,学习到的参数比人类选择的参数[4]更具有鲁棒性。然后我们可以利用均匀抽样来得到下一阶段的离散假设深度平面d(i-1):
其中,Ni−1是第i−1阶段假设平面的数量。
4.实验
5.总结
我们提出了一种级联和融合成本体积表示的鲁棒立体匹配。我们首先引入一个融合的成本体积来缓解不同数据集之间的域转移,以进行初始视差估计。然后构造级联成本量来平衡数据集之间的不同差异分布,其中基于方差的不确定性估计为核心。我们使用它来自适应地缩小下一阶段的像素级视差搜索空间。实验结果表明,该方法在各种数据集上都具有良好的高效性能。在未来,我们计划将我们的成本量表示扩展到半监督或自监督的设置[31,13,39]。