CVF2020邻域自适应/语义分割:FDA: Fourier Domain Adaptation for Semantic SegmentationFDA:用于语义分割的傅立叶域自适应算法

论文地址
代码开源

0.摘要

我们描述了一种无监督域自适应的简单方法,即通过交换一个和另一个的低频谱来减少源分布和目标分布之间的差异。我们在语义分割中说明了这种方法,在语义分割中,密集注释的图像在一个领域(例如合成数据)中非常丰富,但在另一个领域(例如真实图像)中很难获得。当前最先进的方法非常复杂,有些方法需要对抗性优化,以使神经网络的主干对离散域选择变量保持不变。我们的方法不需要任何训练来执行域对齐,只需要一个简单的傅里叶变换及其逆变换。尽管它很简单,但当集成到一个相对标准的语义分割模型中时,它在当前的基准测试中实现了最先进的性能。我们的结果表明,即使是简单的程序也可以忽略数据中令人讨厌的可变性,而更复杂的方法很难了解这些可变性。1.

1.概述

无监督领域适应(UDA)指的是使一个模型适应一个分布(源)中经过注释的样本,以在没有给出注释的不同(目标)分布上运行。例如,源域可以由合成图像及其相应的像素级标签(语义分割)组成,而目标可以是没有地面真值注释的真实图像。由于协变量的变化,在源数据上简单地训练模型不会在目标数据上产生令人满意的性能。在某些情况下,除非执行UDA,否则低级统计数据中感知上不重要的变化可能会导致训练模型的性能显著恶化。
最先进的UDA方法为给定任务(比如语义分割)训练一个深度神经网络(DNN)模型,再加上一个辅助损失,使模型对源/目标域的二进制选择保持不变。这需要艰苦的对抗性训练。我们探索了这样一个假设,即源分布和目标分布之间的低级统计数据的简单对齐可以提高UDA的性能,而不需要在语义分割的主要任务之外进行任何培训。
我们的方法如图1所示:我们只需计算每个输入图像的(快速)傅里叶变换(FFT),并在使用源域中的原始注释,通过逆FFT(iFFT)重建用于训练的图像之前,将目标图像的低频率替换为源图像。
为了验证我们的假设,我们使用在源上训练的模型在目标数据上的性能作为基线(下限)。作为典范(上限),我们使用了最先进的模型和对抗性训练[19]。我们预计,这样一个简单的低水平统计“零炮”校准将改善基线,并有望接近典范。然而,该方法实际上在语义分割方面优于paragon。我们并不认为这意味着我们的方法是执行UDA的方法,尤其是对于语义分割之外的一般任务。然而,这样一种简单的方法优于复杂的对抗性学习,这一事实表明,这些模型在管理低水平的干扰可变性方面并不有效。
傅里叶域自适应需要选择一个自由参数,即要交换的光谱邻域的大小(图1中的绿色正方形)。我们测试了各种大小,以及一种简单的多尺度方法,该方法包括对不同域大小产生的结果进行平均。
我们采用这种方法的动机源于这样一个观察:低水平的频谱(振幅)可以显著变化,而不会影响对高水平语义的感知。物体是车辆还是人不应取决于传感器、光源或其他低水平变化源的特性。然而,这种可变性对频谱有重大影响,迫使基于学习的模型与其他讨厌的可变性一起“学习”。如果在训练集中没有表现出这种可变性,模型就无法推广。然而,我们从一开始就知道,存在一些不确定因素,这些因素并不能为手头的任务提供信息。如果我们操纵全局光度统计数据,图像的分类解释是不变的。任何单调的颜色图重缩放,包括非线性对比度变化,都是已知的干扰因素,可以在一开始就消除,而无需学习。这一点尤其重要,因为网络似乎无法在不同的低级统计数据之间很好地传输[1]。虽然人们可以规范化对比度变换,但在没有标准参考的情况下,我们的傅里叶变换是注册对比度变换的最简单方法之一。更广泛的一点是,已知的干扰可变性可以在一开始就处理,而无需通过复杂的对抗训练来学习。
在下一节中,我们将更详细地描述我们的方法,然后在标准UDA基准测试中进行经验测试。在这样做之前,我们把我们的工作放在当前文献的背景下。

1.1.相关工作

1.1.1语义分割

语义分割得益于DNN体系结构的不断演变[26,51,5,54,41]。它们通常是在具有密集像素级注释的数据集上训练的,比如城市景观[9]、PASCAL[11]和MSCOCO[24]。手动注释不可扩展[53],捕获代表性的成像条件增加了挑战。这激发了人们对使用合成数据的兴趣,例如来自GTA5[33]和SYNTHIA[34]的数据。由于领域转移,在前者基础上训练的模型在后者基础上往往表现不佳。

1.1.2.域自适应

旨在减少两种分布之间的转换[32,10,46]。常见的差异度量是MMD(最大平均差异)及其核变量[15,27],通过CMD(中心矩差异)[52]扩展到高阶统计量[3,30]。不幸的是,由于这些度量的表达能力有限,即使MMD最小化,也不能保证两个数据集对齐。用于领域适应的对抗性学习[14,44,39,21]使用经过训练的鉴别器来最大化源和目标表征之间的混淆,从而减少领域差异。与图像级分类[20,28,37]不同,高级特征空间[27,16,36,38,31]中的对齐对于语义分割可能适得其反,因为复杂的表示和稳定对抗训练的困难。
我们利用图像到图像的翻译和风格转换[55,25,50,8]来改进语义分割的领域适应性。Cycada[19]在像素级和特征级对齐表示。DCAN[47]通过多层次特征的通道对齐来保留空间结构和语义。为了便于图像空间对齐,[4]提出了域不变结构提取,以分离域不变和特定于域的表示。[6] 使用密集深度,在合成数据中随时可用。[17] 在源和目标之间生成中间样式的图像。宗族[29]在全局对齐中加强局部语义一致性。[53]提出课程式学习,将图像的全局分布和地标超像素的局部分布结合起来。BDL[23]采用双向学习,图像变换网络利用分割网络。在输出空间[6,43]上还应用了鉴别器,以对齐源和目标分割。
在多个级别使用转换网络和鉴别器在计算上要求很高,在对抗性框架内进行训练更具挑战性。相比之下,我们的方法不使用任何图像转换网络来生成训练图像,也不使用鉴别器来对齐像素/特征级分布。在我们的方法中训练的唯一网络是用于语义分割的主要任务。我们使用一个完全卷积的网络,输出像素级(log)的可能性。注:在并行工作[48]中,以相位保持为约束训练的变压器网络也会生成保持源图像语义内容的域对齐图像。然后,通过使用条件先验网络学习场景兼容性来实现类似的自适应增益[49]。

2.方法

我们首先描述了不需要任何训练的简单傅立叶对齐,然后描述了我们用来训练整个语义分割网络以利用傅立叶对齐的损
失。 .

2.1. 傅立叶域自适应(FDA)

在这里插入图片描述

图1:光谱转移:在不改变语义内容的情况下,将源图像映射到目标“样式”。随机采样的目标图像通过将源图像频谱的低频分量与其自身频谱进行交换来提供样式。结果“目标风格的源图像”在感知上显示了更小的域差距,并改进了语义分割的迁移学习,如第3节中的基准测试所测。

在这里插入图片描述

图2。图1所示的域β大小的影响,其中光谱被交换:增加β将减少域间隙,但会引入伪影(参见放大的插图)。我们调整β,直到变换图像中的伪影变得明显,并在一些实验中使用单个值。在其他实验中,我们在多尺度设置中同时保持多个值(表1

在无监督域适配(UDA)中,我们得到一个源数据集Ds={(xsi,ysi)∼ P(xs,ys)}Nsi=1,其中xs∈ RH×W×3是彩色图像,ys∈ RH×W是与xs相关的语义映射。类似地,Dt={xti}Nti=1是目标数据集,其中缺少基本真语义标签。通常,在Ds上训练的分割网络在Dt上测试时,性能会下降。在这里,我们提出傅立叶域自适应(FDA)来减少两个数据集之间的域差距。
设Fa,Fp:RH×W×3→ RH×W×3是RGB图像的傅里叶变换F的振幅和相位分量,即对于单通道图像x,我们有:
在这里插入图片描述
在[13]中使用FFT算法可以有效地实现。因此,F−1是将光谱信号(相位和振幅)映射回图像空间的傅里叶反变换。进一步,我们用Mβ表示一个掩码,其值为0,除了中心区域β∈(0,1):
在这里插入图片描述
在这里,我们假设图像的中心是(0,0)。注意,β不是以像素衡量的,因此β的选择不取决于图像大小或分辨率。给定两个随机采样图像xs ~ Ds, xt ~ Dt,傅里叶域适应可以形式化为:
在这里插入图片描述
其中源图像FA(xs)振幅的低频部分替换为目标图像xt的低频部分。然后,将x的修改后的光谱表示,不改变其相位分量,映射回图像xs→t

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值