ICCV2019语义分割/UDA:ACE: Adapting to Changing Environments for Semantic SegmentationACE:适应变化环境下的语义分割

论文下载
开源代码

0.摘要

当深层神经网络在相同的数据分布上进行训练和测试时,它们表现出非凡的准确性。然而,当面对输入分布随时间发生的域转移变化时,神经分类器往往非常脆弱。我们提出了ACE,这是一个语义分割框架,可以随着时间的推移动态地适应不断变化的环境。通过将原始源域中的标记训练数据的分布与移位域中的传入数据的分布相一致,ACE为它所看到的环境合成标记训练数据。然后使用这些样式化的数据更新分割模型,使其在新环境中表现良好。为了避免忘记过去环境中的知识,我们引入了一种存储以前看到的域的特征统计信息的内存。这些统计数据可以用来重放之前观察到的任何域中的图像,从而防止灾难性遗忘。除了使用随机梯度下降(SGD)的标准批量训练外,我们还实验了基于自适应元学习的快速自适应方法。在SYNTHIA的两个数据集上进行了大量实验,结果证明了该方法在适应多个任务时的有效性。

1.概述

当计算机视觉系统部署在现实世界中时,它们会暴露在不断变化的环境和非平稳的输入分布中,这会带来重大挑战。例如,使用晴朗天气下采集的图像优化的深度网络在夜间不同的照明条件下可能会出现严重故障。事实上,最近观察到,即使在输入分布发生微小变化[12]的情况下,深层网络也表现出严重的不稳定性,更不用说面对动态变化的信息流了。
通过收集足够的训练数据来覆盖测试时发生的所有可能的输入分布,可以避免域转移问题。然而,收集和手动注释数据的费用使得这在许多应用程序中不可行。这对于详细的视觉理解任务尤其如此,比如目标检测和语义分割,在这些任务中,图像注释是非常费力的。值得注意的是,人类具有“终身学习”的能力,即利用过去积累的知识分析新的任务和环境。然而,在深度神经网络中实现同样的目标并非易事,因为(i)新的数据域在没有标签的情况下实时出现,(ii)深度网络遭受灾难性遗忘[33],在优化新任务时,先前学习的任务的性能会下降。
我们考虑了将预训练模型适应动态变化的环境的终身学习问题,这些环境的分布反映了不同的光照和天气条件。特别地,我们假设从一个原始的源环境访问图像标签对,而只有来自新的目标环境的未标记的图像,这些图像在训练数据中没有观察到。此外,我们考虑了随着时间的推移而造成的困难,目标环境依次出现。
我们关注语义分割的具体任务,因为它在自动驾驶中的实际应用,视觉识别系统有望处理变化的天气和照明条件。这个应用程序使我们能够利用图形渲染工具从不同分布收集数据的便利性[43,42]。
为此,我们引入了ACE,这是一个框架,它将预先训练好的分割模型适应以顺序方式到达的新任务流,同时将历史风格信息存储在紧凑的内存中以避免遗忘。特别是,给定一个新任务,我们使用图像生成器在像素级别将(标记的)源数据的分布与(未标记的)传入目标数据的分布对齐。这会生成带有颜色和纹理属性的标记图像,这些属性密切反映目标域,然后直接用于在新的目标域上训练分割网络。样式转换是通过重新规范化源图像的特征映射来实现的,因此它们具有与目标图像匹配的一阶和二阶特征统计信息[19,60]。这些重新规范化的特征映射然后被输入到生成样式化图像的生成器网络中。
ACE的独特之处在于其终生学习的能力。为了防止遗忘,ACE包含一个紧凑且轻量级的内存,用于存储不同样式的特征统计信息。这些统计数据足以以任何历史样式重新生成图像,而无需存储历史图像库。利用记忆,历史图像可以被重新生成,并在整个时间内用于训练,从而阻止灾难性遗忘的有害影响。整个生成和细分框架可以与SGD进行端到端的联合培训。最后,我们考虑使用自适应元学习的主题,以便于在遇到新环境时更快地适应新环境。
我们的主要贡献总结如下:

  • 我们提出了一个轻量级的语义分割框架,它能够通过简单快速的优化来适应源源不断的传入分布;
  • 我们引入了一个存储特征统计信息的内存,用于高效的风格回放,这有助于在不忘记以前任务的知识的情况下对新任务进行概括;
  • 我们考虑元学习策略以加快适应新问题域的速率;
  • 我们在SYNTHIA[44]的两个子集上进行了大量实验,实验证明了我们的方法在适应不同天气和光照条件下的一系列任务时的有效性。

2.相关工作

2.1.无监督领域适应

我们的工作涉及无监督领域自适应,其目的是在不访问标签的情况下测试新分布时,提高预训练模型的泛化能力。沿着这条研究路线的现有方法可以减少特征或像素级别的域差异。特别是,特征级自适应侧重于通过最小化源域和目标域之间距离的概念来对齐用于目标任务(例如,分类或分割)的特征表示。这种距离概念可以是以最大平均差异(MMD)[31,4]和协方差[54]等形式表示的明确度量。;或者通过反向梯度[8,9]、域混淆[57]或生成性对抗网络[58,16,17,45,18]等对抗损失函数隐式估计使特征域不变
像素级自适应通过使用减少纹理和照明不一致的映射,将来自不同域的图像转换为看起来像来自相同分布的图像[3,52,55,29]。最近也有一些方法试图同时对齐像素级和特征级表示[15、62、69]。此外,Zhang等人介绍了一种课程策略,该策略使用全局标签分布和局部超像素分布进行调整。Saleh等人在处理域移位时使用检测方法处理前景类[46]。我们的框架与之前的工作不同,因为我们正在适应一系列按顺序到达的测试域,而不是单一的固定域,这是一个挑战,因为它需要网络在当前和所有以前的域上都能很好地执行。请注意,虽然我们主要关注像素级对齐,但我们的方法可以进一步受益于分割网络中的特征级对齐,但代价是保存原始图像,而不仅仅是特征统计。此外,我们的方法还与[63,2,14]有关,它们通过在特征级别对齐来执行分类任务的顺序自适应,而我们的方法则侧重于在像素级别对齐的语义分割。

2.2.图像合成和风格化

人们越来越有兴趣使用生成性对抗网络(GAN)合成图像[65,38,29],这是一个生成器和鉴别器之间的极大极小博弈[11]。为了控制生成过程,添加了大量附加信息,包括标签[36]、文本[41]、属性[49]和图像[21,25]。GANs也被用于图像到图像的翻译,即使用循环一致性[71]或映射到共享特征空间[28,20]将图像的样式转换为参考图像的样式。在不知道域的联合分布的情况下,这些方法试图从每个域学习具有边缘分布的条件分布。然而,使用GANs生成高分辨率图像仍然是一个困难的问题,并且需要大量计算[23]。相比之下,神经风格转移的方法[10,19,59,37,22]通常避免了生成建模的困难,只需匹配Gram矩阵的特征统计信息[10,22],或执行均值和方差的通道对齐[27,19]。在我们的工作中,我们建立在风格转换的基础上,以当前任务中的图像风格合成新图像,同时保留源图像的内容。

2.3.终身学习

我们的工作还与终身学习或持续学习有关,即利用过去积累的知识逐步学习并适应新任务。大多数现有的研究都集中在减轻学习新任务时的灾难性遗忘[24,67,40,50,51,32,5]。最近的几种方法建议在新任务到达时动态增加模型容量[66,64]。我们的工作重点是如何以无监督的方式使学习到的分割模型适应一系列新任务,每个任务的图像分布都不同于最初用于训练的图像分布。此外,为了避免忘记过去学习到的知识,使用样式的特征统计信息来表示和编目样式。因为这种表示比原始图像小得多,所以该框架是可伸缩的。

2.4.元学习

元学习[48,56],也称为learning to learn,是一种设置,其中一个代理接收一组任务,每个任务本身就是一个学习问题,然后建立一个模型,该模型可以快速适应来自同一分布的不可见任务。元学习者分为三类:(i)基于模型的外部记忆[47,34];(ii)基于公制的[61];(iii)基于优化[7,35]。现有的方法主要关注镜头分类、回归和强化学习问题,而我们的方法则关注如何有效地适应分割模型。

3.方法

在这里插入图片描述

图2:提议框架的概述。给定一个传入任务,ACE合成新的图像,保留源任务的内容,但采用目标任务的风格。这可以通过将传入图像的样式信息传输到源图像,或者从内存单元采样样式信息来实现。利用这些不同风格的合成图像,训练分割网络在不忘记过去所学知识的情况下对新的任务进行归纳。

ACE的目标是将一个分割模型从一个源任务调整到多个具有不同图像分布的顺序呈现的目标任务。该方法将标记的源图像传输到目标域,为分割模型创建合成训练数据,同时存储样式信息,用于样式回放,以防止遗忘
更正式地说,T0表示源任务,{Ti}Ti=0表示按顺序到达的T个目标任务。我们进一步使用X0={(x01,y01),··,(x0N,y0N)}来表示用于源任务的N个图像及其相应的标签。标签y0i包含图像x0i中每个像素的独热标签向量;我们将第i个图像样本表示为x0i∈ R3×H×W和y0i∈ {0,1}C×H×W表示相应的标签映射,H和W分别表示高度和宽度,C表示类的数量。
对于每个后续的目标任务,我们假设只访问图像,而不是像在源任务中那样访问图像标签对。我们进一步将目标任务的数量表示为T,并使用Xt={xt1,···,xtNt

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值