跨域迁移性

1跨域迁移性

有两个问题

1、不同数据集存在较大的域差异存在显著的领域差异,例如室内与室外、颜色与灰色、真实与合成,这导致学习到的特征失真和噪声

2、不平衡的视差分布

跨域迁移性。深度神经网络在很大程度上依赖 于训练图像的可用性,其方法性能和泛化能力会受到 训练集较大的影响,且容易出现模型对特定领域过拟合的风险。针对立体匹配问题,大多数端到端网络框 架一般都会选择在合成数据集 Freiburg SceneFlow 上 进行预训练,而这导致了训练后的模型在迁移到真实 数据集上时效果明显下降。因此,开发泛化性较强的 立体匹配方法,使其在跨域迁移时能适应新的情景环 境也是需要解决的一大难题。

这些成功大多局限于特定的数据集,不能很好地推广到其他数据集。主要的困难在于在各种数据集之间存在较大的域差异和不平衡的视差分布,这极大地限制了当前深度立体匹配模型的现实应用,**当前最先进的方法通常限于特定的数据集,因为不同数据集之间存在显著的领域转移。**因此,在一个数据集上处于最先进水平的方法通常无法在没有实质性调整的情况下在不同数据集上实现可比性能(可视化比较见图2)。然而,现实世界的应用需要这些方法能够很好地推广到不同的场景,而无需进行调整。因此,我们需要推动方法具有鲁棒性,并在具有固定模型参数和超参数的不同数据集上表现良好

设计鲁棒立体匹配系统的困难来自于各种数据集之间的大区域差异和不平衡视差分布。如图2(a)所示,不同数据集之间存在显著的领域差异,例如室内与室外、颜色与灰色、真实与合成,这导致学习到的特征失真和噪声[37]。此外,如图3所示,Middlebury[22]中半分辨率图像的视差范围甚至是ETH3D[24]中全分辨率图像的6倍多(400对64)

这种不平衡的视差分布使得用固定视差范围训练的当前方法在没有实质性适应的情况下不能覆盖另一数据集的整个视差范围。

在这里插入图片描述

在其他视觉任务中,常通过设计特定的损失函数使用领域自适应和迁移学习策略来缓解此问题,这 2 种思路也是缓解立体匹配 网络泛化性问题的潜在对策。

1.1方法1:无监督图像重建损失函数

尽管以CycleGAN为代表的无监督图像到图像转换网络在处理域差距方面显示出巨大的潜力,但由于转换后的像素失真和立体失配问题,将该方法推广到立体匹配并非易事。

1.2方法2:领域自适应和迁移学习策略

迁移学习的三种手段之一就是Fine-tuning

自适应算法

1.3方法3:一些立体匹配网络[3,40,58]已经尝试通过进行特征级对齐以获得域不变特征来解决这个问题

比如CF-net

1、提出了一种融合代价体表示来处理大的域差异。通过融合多个低分辨率密集成本体积来扩大感受野,我们可以提取用于初始视差估计的鲁棒结构表示。

2、提出了一种级联代价体表示来缓解不平衡的视差分布。具体是使用基于方差的不确定性估计来自适应地调整下一阶段视差搜索空间,以这种方式驱动网络逐渐地修剪不可能的对应空间。通过迭代地缩小视差搜索空间并提高成本体积分辨率,以粗到细的方式逐渐细化视差估计

CF-Net1.1提出了一种级联和融合的代价体表示来缓解上述1、域差异和2、视差分布不平衡问题

(1) 对于较大的域差异,建议融合多个低分辨率密集代价体,以扩大用于捕获全局和结构表示的感受野。先前的工作[37]观察到,卷积神经网络的有限有效感受野[17]是该网络对不同数据集域敏感的主要原因,并提出了一个可学习的非局部层来扩大感受野。受其启发,我们发现,不同尺度的低分辨率代价体可以覆盖多尺度感受域,并且在促进网络观察不同尺度图像区域方面相互补充。因此,我们可以融合多个低分辨率密集成本体积,以指导网络学习在不同数据集之间不变的几何场景信息。此外,此操作只增加了轻微的计算复杂性

(2) 针对不平衡的视差分布,我们提出了级联代价体表示并使用基于方差的不确定性估计来自适应地调整下一阶段的视差搜索范围。也就是说,我们的方法只需要在第一阶段覆盖所有数据集的视差分布(视差范围)的并集。然后,我们可以使用我们的不确定性估计来评估视差估计的像素级置信度,并删除不可能的对应关系,指导我们的网络在下一阶段查看更多可能的视差搜索空间。此外,我们可以通过修剪不太可能的对应关系来节省大量的计算复杂性。

1.4方法4域广义方法domain generalized stereo networks.

像STTR和GraftNet这种都是为了得到更加全面的具有深层次的特征不过前者是引入了一个新的结构,后者是把高级视觉任务提取的特征嫁接到一个普通的立体匹配网络中

无论是通过相关性计算匹配还是通过3D卷积学习匹配,都会设置最大视差以减轻工作中的内存和计算需求对于每个像素,都有一组固定且有限的离散位置,可以在其中映射像素,从而生成匹配的代价体积对于超出此预定义范围的差异,这些方法无法推断正确的匹配这限制了网络在不同场景和立体相机配置之间的通用性

从序列到序列对应的角度重新审视这个问题就放宽了固定视差范围的限制

因此它可以应用于具有不同视差范围的环境

STTR通过attention建立像素之间的关联,而不是通过设定max-disparity的形式建立cost volume

STTR[5]提出将立体匹配作为没有预定义视差范围的密集特征匹配任务来处理,这显示出很强的泛化功能,并在合成图像和真实图像基准上实现有竞争力的性能。然而,STTR仅仅通过在1/4分辨率的特征图上使用自关注和交叉关注来实现它们的密集匹配,这忽略了隐藏在图像中的多尺度信息,比如浅层网络的局部信息,或者更深层网络的全局信息。并且STTR给立体系统带来了沉重的计算和存储成本

大多数现有方法提出用视差范围构建成本体积,并引入3D卷积神经网络(CNN)来从给定视差范围预测每个像素的最佳视差。尽管这些方法在标准数据集上取得了显著的性能,但给定的视差范围限制了它们对具有不同视差范围的不同场景的泛化。由于固定大小和形状的卷积和池化操作仍然限制了网络进行几何转换的能力,导致获取的上下文信息不够精准和全面,此外,引入的3D CNN显著增加了立体匹配系统的计算复杂性

1.5方法5:将场景几何先验纳入端到端网络

Jialiang Wang, V arun Jampani, Deqing Sun, Charles Loop,
Stan Birchfield, and Jan Kautz. Improving deep stereo net-
work generalization with geometric priors. arXiv preprint
arXiv:2008.11098, 2020. 3

1.6方法6:引入了域归一化和基于可训练非局部图的滤波器,以构建域不变立体匹配网络。

Feihu Zhang, Xiaojuan Qi, Ruigang Yang, Victor Prisacariu,
Benjamin Wah, and Philip Torr. Domain-invariant stereo
matching networks. In Europe Conference on Computer Vi-
sion (ECCV), pages 420–439, 2020. 1, 2, 3, 8

2.无纹理

无纹理区域比如室内的白墙,这种弱纹理区域在室内环境非常常见,

传统立体匹配网络只是简单地将左右特征图拼接起来,或者是以点积的方式结合,形成一个单一的联合特征,因此在一 些遮挡区域以及无纹理区域性能表现较差。这是因其忽视了视差本身代表的是匹配点在水平方向的空间属性,故未能获取更多的信息。

1、在大的无纹理区域中,像素之间的相似性可能不明确。然而,这种模糊性可以通过考虑相对于突出特征(例如边缘)的相对位置信息来解决。

2、粗粒度到细粒度的匹配方法有利于大的无纹理区域。

基于深度学习的端到端立体匹配网络往往在遮挡、弱纹理区域容易发生错误匹配的情况,不能够有效的利用上下文信息来推导线索。针对这一问题本文提出了一种基于全局上下文信息的双目立体匹配算法,在特征提取阶段利用空间金字塔模块融合不同感受野的特征信息,增强复杂区域的特征提取能力。采用基于级联和基于不同视差下内积混合构成匹配代价来描述特征间的相似度。在匹配代价优化阶段,设计了全局上下文模块和三维编解码网络相结合的模型,通过编解码网络连接多个尺度的局部上下文信息,采用全局上下文模块来获得取全局上下文信息。

弱纹理、反射、物体边缘等病态区域会严重影响立 体匹配网络的匹配精度,通过融合不同模型的优点或采用多任务学习的方式能有效缓解此问题

3.兼顾精度和效率

双目立体匹配网络存在不能兼顾效率和精度的问题,基于三维卷积的立体匹
配网络效率低而预测精度高,占用大量 GPU 内存计算时间长

4.遮挡区域

基于左右图像中特征的相似性来估计遮挡区域,并取得了良好的效果。

5.匹配唯一性约束

Optimal Transport最佳传输

熵正则化最优传输entropy-regularized[9]由于其软分配和可微分性,是一种理想的替代方案,并且先前已被证明有利于稀疏特征[31]和语义对应[24]匹配的相关任务

尽管基于 CNN 的算法在处理立体匹 配任务时性能得到很大提高,但由于网络并不能捕获 充分的上下文信息和多尺度信息,在复杂场景中进行 像素的视差估计仍然存在一些困难。

多尺度

卷积神经网络通过逐层抽象的方式来提取目标的特征,其中一个重要的概念就是感受野。

高层网络的感受野比较大,语义信息表征能力强,但是特征图的分辨率低,几何信息的表征能力弱(空间几何特征细节缺乏);

低层网络的感受野比较小,几何细节信息表征能力强,虽然分辨率高,但是语义信息表征能力弱。

高层的语义信息能够帮助我们准确的检测或分割出目标。

深浅层对应适合的目标大小

下采样倍数小(一般是浅层)的特征感受野小,适合处理小目标,小尺度map(深层)分辨率信息不足不适合小目标

在yolov3中对多尺度检测的理解是,1/32大小的特征图(深层)下采样倍数高,所以具有大的感受野,适合检测大目标的物体,1/8的特征图(较浅层)具有较小的感受野,所以适合检测小目标。

CFNet2.2-多尺度成本体积首次应用于基于单特征3D成本体积的网络,其形式为两级细化[16]和金字塔塔[29,27]。最近,在多视图立体中提出了级联代价体表示[34,11,4],以减轻使用4D成本体积时的高计算复杂性和内存消耗。这些方法通常以最粗略的分辨率预测初始视差。然后,他们缩小视差搜索空间并逐渐细化视差。最近,Casstereo[11]将这种表示扩展到立体匹配。它对预定义范围进行统一采样,以生成下一阶段的视差搜索范围,相反,我们使用不确定性估计来自适应地调整下一阶段像素级视差搜索范围,并将下一阶段的代价体推至主要单峰。我们的方法也与UCSNet[4]相似,UCSNet构建了多视图立体中的不确定性感知代价体。然而,它只关注特定于数据集的性能。此外,它使用预定义的参数生成下一阶段的搜索范围,而我们使用学习的参数,这可以更好地适应不同的数据集

给定一个图像对,CFNet首先使用具有跳跃连接的类似编码器-解码器架构来提取多尺度图像特征。编码器由五个残差块组成,然后是SPP模块,以更好地结合分层上下文信息。我们的SPP模块与HSMNet中使用的模块相似[33],同时将平均池块的大小更改为H/s×W/s,其中∈ {32, 64, 96, 128}. 与广泛使用的类似Resnet的网络[11,12]相比,我们的方法更有效,并且仍然包含用于成本聚合的足够信息。实验表明,我们的金字塔特征提取器-可以以较低的计算复杂度实现类似的性能。然后,我们将多尺度特征划分为融合和级联代价体,并分别预测多分辨率差异。

CFINet-低分辨率特征有利于匹配大型对象和无纹理区域。但是,由于缺乏进行深度估计时图片的详细信息,很难在细节的区域工作。我们设计了一个上采样融合模块,它将交叉融合的特征与更高分辨率的特征融合,以丰富纹理细节

传统方法局限性

传统方法多采用一些手工制定的算法去获得语义上下文信息,这类方法通常只适用于某些特定的场景,因此具有严重的泛化局限性

传统立体匹配网络只是简单地将左右特征图拼接起来,或 者是以点积的方式结合,形成一个单一的联合特征,因此在一 些遮挡区域以及无纹理区域性能表现较差。这是因其忽视了 视差本身代表的是匹配点在水平方向的空间属性,故未能获取 更多的信息。

CNN局限性

大多数现有方法提出用视差范围构建成本体积,并引入3D卷积神经网络(CNN)来从给定视差范围预测每个像素的最佳视差。尽管这些方法在标准数据集上取得了显著的性能,但给定的视差范围限制了它们对具有不同视差范围的不同场景的泛化。由于固定大小和形状的卷积和池化操作仍然限制了网络进行几何转换的能力,导致获取的上下文信息不够精准和全面,此外,引入的3D CNN显著增加了立体匹配系统的计算复杂性

无论是通过相关性计算匹配还是通过3D卷积学习匹配,都会设置最大视差以减轻工作中的内存和计算需求对于每个像素,都有一组固定且有限的离散位置,可以在其中映射像素,从而生成匹配的代价体积对于超出此预定义范围的差异,这些方法无法推断正确的匹配这限制了网络在不同场景和立体相机配置之间的通用性

KITTI数据集[9,19]专注于真实世界的城市驾驶场景,而Middlebury[22]专注于室内高分辨率场景

研究目的

的代价体积**。对于超出此预定义范围的差异,这些方法无法推断正确的匹配这限制了网络在不同场景和立体相机配置之间的通用性

KITTI数据集[9,19]专注于真实世界的城市驾驶场景,而Middlebury[22]专注于室内高分辨率场景

研究目的

在计算机视觉领域里,如何从二维平面图像中获取三维真实场景中的形状、位置和深度等三维信息,即通过摄像机和计算机来完成对真实世界的场景感知,使计算机具有与人类双眼类似的对目标物体、目标场景识别判断的能力是一个很值得研究的课题。目前应用最为广泛的是通过双目立体匹配算法来完成对二维图像的深度估计,双目立体匹配的难点在于如何正确有效地建立左右图像之间所有像素的一对一的匹配关系。因此,双目立体匹配一直是计算机立体视觉的重点研究方向。研究好双目立体匹配这个课题,不仅可以有效推动计算机视觉领域其他相关课题如三维重建、目标检测和语义分割等的发展,在无人驾驶、虚拟现实技术等领域也有着非常广泛的前景。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值