Achieving Domain Robustness in Stereo Matching Networks by Removing Shortcut Learning
通过去除捷径学习实现立体匹配网络中的域鲁棒性
Domain Robustness(域鲁棒性)
Removing Shortcut Learning (去除捷径学习)
1、摘要
基于学习的立体匹配和深度估计网络目前在公共基准上取得了令人印象深刻的结果(on public benchmarks with impressive results)。 然而,最先进的网络往往不能从合成图像归纳到更具有挑战性的真实数据领域。 本文通过分析合成图像学习对真实数据性能的影响,试图揭示实现领域鲁棒性的隐藏秘密,特别是发现立体匹配网络泛化成功的重要因素。 我们提供的证据表明,立体匹配网络在合成域的特征学习很大程度上受到合成数据中出现的两个捷径的影响:
(1)合成立体图像中匹配像素之间的局部统计(RGB颜色特征)相同;
(2)在游戏引擎模拟的3D物体上合成纹理缺乏真实感。
我们将证明,通过删除这样的捷径,我们可以在最先进的立体匹配框架中实现领域鲁棒性,并在多个真实数据集上产生显著的性能,尽管事实上,网络是在合成数据上训练的,只是。 我们的实验结果表明,从合成数据中消除捷径是实现合成数据域和真实数据域之间的域不变泛化的关键。
2、 Introduction
立体匹配是计算机视觉中的一个基本问题,在各种应用中得到了广泛的应用
增强现实(AR)、机器人技术和自动驾驶。 立体匹配的目的是通过计算一对立体图像之间像素对应的水平位移来估计深度。 近年来,许多端到端卷积神经网络(CNNs)取得了优异的成绩。在实践中,最先进的立体匹配网络以一种监督的方式进行训练,其中需要注释数据集来微调模型从合成数据域到真实数据域。然而,ground-truth差异标签在现实场景中生成是很麻烦的。
现有的基于学习的立体匹配网络的一个主要缺点是它们不能推广到看不见的领域。一般认为,这是由于训练和测试数据[39]之间的域差异造成的。这些差异可能包括数据集之间在图像外观、风格和内容上的差异。为了克服这一问题,提出了无监督域自适应(UDA)方法来弥补合成数据与实际数据之间的域差距,并在不依赖ground truth的情况下,在目标领域有效地迁移学习到的知识[22,36,37,38]。然而,UDA需要大量来自目标域的立体图像,这在许多现实场景中具有挑战性。
相反,域泛化( domain generalization,DG)允许网络学习域不变的特征,而不需要目标域[14]的特定信息。例如,Zhang等[50]提出了利用域归一化来正则化所提取特征的分布,从而获得域不变的表示。
需要注意的是,这两种方法(即UDA和DG)的设计都是为了减轻合成数据域和真实数据域之间差异的影响。在这里,我们认为阻碍立体匹配网络泛化的主要问题是学习在合成域的琐碎特征。Geirhos等人[9]为这种现象创造了一个有用的术语,即捷径学习,其中捷径表示一种解决方案,它在类似于训练环境的数据上获得了优异的性能,但未能推广到更具有挑战性的测试条件,如现实场景。我们发现立体匹配网络中出现的捷径学习主要是由合成立体图像的自然属性引起的,包括:(1)合成立体图像中匹配像素之间的局部统计(RGB颜色特征)相同;(2)三维物体模型中合成纹理缺乏真实感。
我们发现,合成立体图像中像素对应之间相同的颜色特征为立体匹配网络提供了容易定位匹配像素的线索。如图2所示,合成立体图像中有相当一部分像素的对应色差低于真实的室内或室外立体图像。因此,在合成数据上训练的网络不再学习预期的鲁棒和域不变特征,因为微不足道的特征足以实现合成域的优越性能(错觉)。因此,在合成数据上训练的立体匹配网络非常容易受到这种颜色提示的影响,当在颜色分布中包含不显著扰动的合成数据上测试时(如图1所示),立体匹配网络严重失败。本文在其补充材料中提供了经验证据:说明在合成数据上训练的立体匹配网络所提供的解决方案对这种颜色提示非常敏感。
图1:(最佳彩色和放大视图)立体匹配网络在(基线)和没有删除捷径时的性能比较。当在立体图像(下图)中加入人眼难以看到的对抗噪声时,基线网络的性能下降。
图2:不同数据集像素对应之间RGB通道的颜色差异。与合成数据集(scenflow, Middlebury)相比,真实数据集(KITTI 2015, Middlebury)中像素的重要部分有更大的颜色差异(scenflow,
SYNTHIA)
此外,我们发现立体匹配网络偏向于利用琐碎和局部特征来估计合成物体(如汽车)的视差。这主要是由于合成物体上缺乏真实感纹理,减少了估计立体视图之间匹配像素的难度。然而,对于领域变化具有鲁棒性的复杂高级特征(形状、语义)非常适合用于改进泛化[10]。在实践中,这个问题通常可以通过使用生成对抗模型(GANs)进行图像到图像的转换来缓解,以缩小合成图像和现实目标域之间的差距。
但是在立体匹配中采用这种方法具有挑战性,因为生成模型不能保证极面一致性,也不能保证立体视图[22]之间的特征一致性。
本文旨在证明在立体匹配网络中,通过从综合训练数据中去除上述捷径,可以实现领域鲁棒性。为此,我们提出了两种现有的数据增强技术,即非对称彩色增强和非对称随机修补,以消除这些捷径从合成立体图像。值得注意的是,可能存在一种比所包括的数据增强方法更好的方法来消除所提到的捷径。然而,本工作的重点是说明,删除捷径可以显著改善领域不变泛化在立体匹配网络,尽管使用的是一个简单的方法,如所包括的增强技术。实验结果表明,消除合成立体图像中的快捷特征是获得域不变立体匹配网络的关键。我们的实现可以在:URL。
总之,我们的主要贡献包括:
(1)证明了在合成立体图像中发现的捷径导致了立体匹配网络中特定领域和琐碎特征的学习;
(2)结果表明,利用数据增强技术消除合成数据中识别出的快捷方式,可以在立体匹配网络中获得领域鲁棒性;
(3)仅用合成数据训练的立体匹配网络在多个真实域的立体匹配和视差估计方面取得了良好的效果;
(4)并且提供一个简单的蓝图作为设计领域不变立体匹配网络的重要步骤,而不需要复杂的网络交替或额外的可学习参数。
3. Methodology
在本节中,我们将讨论在立体方法中选择数据增强方法以减轻已识别的捷径的影响背后的直觉。这些增强方法将与立体匹配网络中常用的数据预处理方法相结合,如随机裁剪和图像归一化。此外,数据增强方法的结果如图3所示。关于实验设置和结果的细节在第4节中提供。
图3 从SYNTHIA数据集[32]采样的合成图像示例,采用了提出的数据增强方法:非对称色增强(asymmetric chromatic augmentation,ACA)和非对称随机修补(asymmetric random patching,ARP)。
3.1 非对称色增强(asymmetric chromatic augmentation,ACA)
在合成数据上训练的立体匹配网络不能推广到真实领域,主要原因是合成立体图像中匹配像素之间的颜色特征相同,如第1节所述。这导致学习简单的解决方案,如匹配琐碎的特征(颜色,纹理等),这足以在合成域准确估计视差。然而,在实践中,需要健壮的高级特性(以推广到更具挑战性的领域[9,10])。为了解决这个问题,我们提出了消除由颜色提示产生的捷径机会,通过消除像素对应之间的颜色相似性,使用不对称的彩色增强。具体来说,通过在预先设定的范围内调整亮度、对比度和饱和度参数,左右两幅立体图像的亮度和颜色会发生不同的变化。
虽然HSMNet[43]中包含了非对称色增强,以缓解不同立体视点下不同光照和曝光条件的影响,但在推广立体匹配网络方面,这种增强对鲁棒性的好处之前没有发现。事实上,他们建议,对于网络的混合训练(使用合成和真实数据),没有使用这种增强效果也能获得更好的性能。但我们发现,为了在立体匹配网络中实现域鲁棒性,仅依靠综合训练(理想的选择),适当使用非对称色增强可以有效消除颜色提示捷径,显著提高性能(见表1)。我们还发现,不对称的彩色增强促进照明不变,因为调整输入图像的亮度将产生不同照明条件下(白天和夜晚时间)的额外训练数据集。根据HSMNet方法,我们在[0.4,2.0]范围内随机选择亮度参数,在[0.5,1.5]范围内随机选择饱和度和对比度参数。
表1:所提出的数据增强方法的消融研究:非对称色增强(ACA),非对称随机修补(ARP)。所有模型都使用scenflow和SYNTHIA合成数据集进行训练,并使用三种不同的真实数据集进行测试。
3.2 非对称随机修补(asymmetric random patching,ARP)。
在公开的合成立体数据集(例如SYNTHIA[32]和SceneFlow[24])中,所包含的3D模型通常是现实世界物体的过度简化版本。例如,图4所示的合成数据中没有模拟真实图像中车门的反射。
图4:在真实世界中捕获的汽车对象(左)和在模拟中生成的合成汽车模型(右)的定性比较。合成汽车可以看作是一辆真实汽车的过于简化的模型。
这些物体上缺乏真实的图像特征,显著地简化了合成域的学习方面。因此,在合成立体图像上训练的立体匹配网络将学会利用过于简单的局部特征专门用于合成领域。相比之下,全局上下文线索和观测对象的鲁棒结构表示等特征是域泛化的理想特征[50,10]。
为此,我们提出使用非对称随机修补来缓解由于合成对象缺乏真实的图像特征而导致的快捷学习的影响。非对称随机修补方法的灵感来自于[15]中提出的有限上下文修复(limited context inpainting, LCI)。LCI包括使用生成模型来绘制随机定位的局部补丁,使用像素信息从补丁边界。因此,被覆盖的patch只保留了局部统计数据(与边界像素相同),而与图像的全局上下文无关。通过学习从一系列图像变换(如扭曲和旋转)中区分LCI,网络可以从图像中获取全局信息,并提高其泛化能力以完成后续任务(如图像分类)。
与LCI类似,非对称随机补丁会干扰随机放置在左侧或右侧图像中的几个局部补丁(p = 0.5的概率)。这些扰动包括颜色的变化,以及从高斯分布采样的颗粒噪声的添加,N (u= 0, σ = 0.1)。这增加了网络学习对象和图像上下文的鲁棒和描述性上下文线索的机会,促进领域泛化。此外,通过包含非对称随机修补,该网络学习从任何一个对遮挡具有鲁棒性的立体视图中挖掘单眼线索。因此,即使物体在立体视点中被部分遮挡,该网络也能够估计出准确的视差测量值(支持证据作为补充材料提供)。在我们的实现中,图像中包含的局部补丁的数量在[2,4]之间均匀采样,每个补丁的高度和宽度在[50,100]像素之间均匀采样。
结果
表3:使用KITTI、Middlebury和ETH3D数据集评估跨域性能。所有立体匹配网络使用scenflow训练集进行训练。[3, 12, 13, 47, 49]的结果由[50]得到。
读者总结
这是一篇立体匹配域泛化性性研究的文章,域不变domain-invariant、域自适应domain adaptation、域泛化性domain generalization、域鲁棒性Domain Robustness都表示的是同一个意思。有两个问题需要搞清楚:1、什么是域泛化性?;2、可以从哪几个方面研究域泛化性?
什么是域泛化性?
直观的理解就是训练集和测试集之间差异较大,比如在场景、颜色、纹理等差异较大。在立体匹配中,域泛化性的测试一般是在虚拟的数据集上训练,然后在真实的数据集上不学习直接验证。所以,域泛化性和迁移学习有着本质的区别。
可以从哪几个方面研究域泛化性?
研究深度学习无非就几种情况:数据集、网络、loss、学习策略等。但研究最多的也就是数据集增强策略和改进网络两种。而这篇论文则是在增强数据集上做的工作。
作者首先是比较了虚拟数据集和真实数据集的差异,比如:合成物体上缺乏真实感纹理、合成数据集与真实数据集之间的色差较大,进而作者提出了两种消除差异的方法:非对称色增强、非对称随机修补。(PSMNet在Sceneflow数据集上训练,在Kitti数据集上验证,就会发现车窗、反光镜面基本会错,本文也说,这是因为虚拟合成数据集模拟不出镜面、反光的效果)。
其中,非对称色增强是让左右图像的亮度、饱和度和对比度有差异,参考的HSMNet。而非对称随机修补则是在图像上随机区域加上噪声。这些策略其实在目标检测、分类领域都用烂了。反过来说,立体匹配领域很少在这方面下功夫。
但是,我看跨域性能评估中,kitti和ETH3D的表现都比较好,特别是Kitti数据集,但Middlebury数据集和DSMNet差别就不是很大了,Middlebury确实很难啊!!!
总之,是一篇不错且好复现的文章。