遥感图像/UDA:Curriculum-Style Local-to-Global Adaptation for Cross-Domain Remote Sensing Image Segmentat

官方代码
论文地址

0.摘要

虽然领域自适应在自然图像分割任务中已经得到了广泛的研究,但对于高分辨率遥感图像的跨领域分割研究还处于探索阶段。基于VHR rsi的跨域分割主要面临两个关键挑战:1)地表覆盖面积大,地物类别多,局部斑块级数据分布偏差严重,对不同局部斑块的适应困难不同;2)不同的VHR传感器类型或动态变化模式导致VHR图像即使在相同的地理位置也会经历密集的数据分布差异,从而产生不同的全局特征级域间隙。为了应对这些挑战,我们提出了一个课程式的本地到全球跨域适应框架,用于分割VHR rsi。本文提出的课程式自适应算法根据目标域内每个patch的熵值评分所获得的自适应困难程度,以一种易-难的方式进行自适应过程,很好地对齐了域图像中的局部patch。本文提出的局部到全局自适应算法实现了从局部语义特征差异到全局结构特征差异的特征对齐过程,由一个语义级域分类器和一个熵级域分类器组成,可以减少上述跨域特征差异。在地理位置变化和成像模式变化等多种跨域场景下进行了大量实验,实验结果表明,该方法能够显著提高分割网络对VHR rsi的域适应性。

1.概述

随着对地观测技术的快速发展,大量的非常高分辨率(VHR)遥感影像(RSIs)被广泛用于监测大面积陆地表面[1]、[2]的变化状态。VHR rsi语义分割的目的是为VHR rsi中的每一个像素分配一个类别标签,这是理解地面信息的关键步骤,在交通管理、土地测量、城市规划、环境监测等面向城市的应用中发挥着重要作用。
最近,得益于卷积神经网络(CNN)[9],[10]的不断进步,在训练样本和测试样本严格从相同的数据分布中提取的条件下,从给定的输入图像进行像素级图像分割的能力被大大提高了[11]-[15]。然而,对于VHR rsi的语义分割,这一假设很难得到保证,这主要是由于获取于不同的成像传感器和地理位置的VHR rsi的数据分布往往不同。此外,VHR rsi的语义分割需要在不同传感器和其他城市场景中可靠、准确地工作。不幸的是,数据驱动的分割网络[11]-[16]在其原始源域上经过良好训练后,当部署到具有数据分布差异(域移位)的新目标域时,其泛化能力最终会退化。
在具有数据分布差异的新目标域上对分割网络进行再训练,可以提高分割精度,并在新目标域上获得满意的分割结果。但是,从目标域收集的数据仍然需要手工注释[17]。特别是对于VHR rsi,这种像素级的人工标注过程高度依赖遥感领域专业人士的知识,使得人工标注过程更加耗时[18]。因此,有必要将基于VHR rsi的分割网络从标记良好的源域转移到未标记的目标域。
一种常见的缓解数据差异的方法是无监督域适应(unsupervised domain adaptation, UDA)[19] -[26],其目的是以一种仅利用标记源样本和未标记目标样本的无监督方式来减少域间特征差异。现有的大多数研究大致可以分为两类:基于度量差异的方法和基于对抗性学习的方法。基于度量差异的方法通过最大平均差异(MMD)[19]、[20]、深度相关对齐(CORAL)[21]和多核MMD (pk -MMD)[22]、[23]等度量标准来最小化域间特征分布差异,而基于对抗学习的方法则通过域鉴别器[24]~[30]来学习域不变特征。但是需要注意的是,上述方法[19]-[26]在图像分类任务中侧重于跨域适应,在整个输入图像中只存在一个感兴趣的对象。因此,这些基于分类的工作不能减少局部细节特征域间的差异,忽视了多个语义类别之间空间结构关系的重要性。
在UDA方法在图像分类任务成功的驱动下,一些研究者开始通过像素级的图像到图像的转换方式[40]-[44]或基于特征级对抗性学习的自适应方式[31]-[37],将跨域自适应的研究从基本的图像分类任务扩展到高层次的下游任务,如目标检测[31]、[32]和语义分割[33]-[39]。例如,为了获得较高的跨域分割精度,首先进行一项简单的任务,即预测全局标签分布,进一步对分割模型的网络训练进行有效正则化[33],[34]。AdaptSegNet[35]在适应过程中侧重于对结构化输出空间进行对齐,ProDA[37]从自训练的角度解决了UDA的问题,利用特征质心学习紧化的目标结构。然而,这些方法很难解决VHR rsi的区域差异。这主要是由于不同域之间的VHR rsi通常具有各自鲜明的特征,如成像模式(传感器)的差异、颜色饱和度的变化、空间布局的变化等。
基于上述原因,在RSI语义分割领域,有一些尝试[45]-[50],设计了一种动态变化成像模式或土地覆盖类别下的跨域适应框架。例如,BSANet[45]通过对由轻量级UNet和离散/逆小波网络组成的双分支结构中的跨域特征进行匹配来适应分割模型,可以缓解特征分布的域差异,进一步提高VHR rsi的分割精度。此外,还开发了一个全空间域适应框架,利用对抗性学习从图像空间、特征空间和输出空间[48]匹配域间差异。最近,DualGAN[49]提出通过在最终的图像到图像风格转换过程中施加多个弱监督约束来训练域自适应分割网络,从而生成一些类目标域rsi。尽管这些作品[45]-[50]非常鼓舞人心,并且在目标领域取得了性能提升,但它们仍然面临以下两个重要挑战。
首先,由于从相同的成像传感器获取的VHR rsi往往包含广泛的土地覆被,因此从这些rsi中采样的斑块通常在一个域图像内具有明显的域内分布差异和局部斑块的跨域适应困难。例如,图1(a)显示了目标图像上如此大的分片域差异,在同一VHR RSI的不同地理位置采样的两个patch具有显著的特征差异。因此,跨域适应过程需要考虑一个域(或VHR RSI)内部的固有特征差异。
第二不同成像传感器在不同地理空间区域采集的VHR rsi往往既表现出局部细节特征(如地表形态、纹理和地表语义类别的变化),又表现出全局结构特征(如地表语义类别的空间布局差异)的域差异。上述两种域差异在图1(b)中得到了很好的体现,“Tree”的外观/纹理跨域差异明显,“Building”的几何布局(或土地覆盖类型的结构分布)在域间动态变化。因此,学习一种既能保证源目标特征表示的局部细节一致性又能保证全局结构一致性的域不变特征提取器对于基于VHR rsi的语义分割是必不可少的
为了克服上述问题,本文提出了一种课程式的VHR rsi局部到全局跨域语义分割框架。具体而言,考虑到从同一目标图像中采样的patch往往在域内具有不同的数据变化,我们提出对所有目标patch的跨域适应应遵循在适应过程中容易适应的patch需要先于难适应的patch进行适应的思路,并制定课程式的跨域适应(CCDA)策略。通过计算基于熵的分数,根据目标补丁的困难程度对其进行排序,选择一些易于适应的目标补丁进行初始源-目标域适应。接下来,基于伪标记的易于适应的目标patch和标记的源patch,将初始对齐的分割模型进一步适应难以适应的patch。此外,在分割模型的特征学习过程中,为了减少VHR rsi在局部细节和空间布局上的跨域特征差异,设计了局部到全局特征对齐(LGFA)模块。我们认为特征差异对齐也应该遵循类似的易难适应方式,即所有语义类别的全局空间布局往往比描述相对局部模式的语义对象[35]、[36]的局部语义信息更为复杂。因此,首先应该使用对抗性学习在分割主干和所开发的域鉴别器之间对表示对象局部语义细节的特征的域差异进行对齐。接下来,基于局部语义信息中对齐良好的特征,我们进一步对齐表示类特定预测的源-目标熵图,它可以描述土地覆盖语义类别的全局结构信息。
我们在两种典型的跨域场景下对几个常见基准[51]进行了广泛的实验:1)不同地理位置下的域适应和2)不同地理位置和成像模式下的域适应。所有的实验结果都证明了所提出的课程式的适应策略在缓解VHR rsi的领域差异方面的有效性,并显著提高了基于rsi的分割任务的领域适应性。并利用另一个基线模型进行实验,验证该方法在不同基线分割模型下的泛化能力。
本文的主要贡献可以概括如下:

  • 我们揭示了成功地将基于rsi的分割网络从源域适应到目标域的一个关键方面,即课程式的适应策略,旨在根据要适应的目标补丁的不确定性逐步适应源网络。这应该是一个开创性的工作,考虑领域适应从课程学习的角度分割VHR rsi。
  • 为了缓解局部语义和全局空间布局信息的区域差异,我们设计了语义级和熵级的区域分类器,分别对这两种差异进行量化,使区域之间的局部语义和全局结构特征差异得到充分的减少。

2.方法

在这里插入图片描述

这项工作的目的是在一些典型的跨域场景中,包括不同的成像模式和地理位置,将基于rsi的源域上的预训练分割网络转移到基于rsi的未标记目标域。该方法的总体框架如图2所示,通过以下CCDA策略进行源-目标域适配。首先,将给定的源域模型从源域调整为目标域中选择易于调整的补丁。然后,通过第一阶段训练的模型进行初始化,得到这些容易适应的目标patch的伪标签,然后进行第二阶段,使模型进一步适应难以适应的目标patch。在上述每个阶段,将LGFA模块(由一个语义级域分类器和一个熵级域分类器组成)插入基线分割网络,实现局部语义和全局结构特征的匹配
为了更好地说明课程式的rsi分割域适应过程,我们首先给出了跨域适应和语义分割的问题定义。接下来,我们详细描述了拟议的课程式本地到全球适应。然后,给出了所设计的语义级和熵级领域分类器的详细网络结构。最后给出了该方法的总体优化目标和自适应策略。

2.1.预备知识

无人监督的领域适应:
假设x是一个输入图像,I是它的表示,其中I = B(x), B是一个分割网络的主干,例如Deeplab-v3[14]中的ResNet-101, Y分别表示语义分割任务中的像素级注释。UDA的目的是学习域之间的广义B,使B可以安全地适应一个新的目标域t,其中源域的标记图像是给定的,而目标域的图像是不可用的注释Yt
源领域的语义分割
典型的基于cnn的语义分割模型通常由骨干网B和像素级分类模块P组成,骨干网B将输入图像从像素空间转换为高级表示,像素级分类模块P旨在将上述表示转换为类特定的输出空间。给定来自源域s的标记图像xs及其像素级标注y,语义分割的目标是优化B和P,使源域数据上的分割损失最小化。这个过程可以表述如下:
在这里插入图片描述
其中P(B(xs))∈RH×W×C表示C类上特定类的输出,H和W分别表示输出的高度和宽度,σ表示Softmax激活函数[12],[13],这是语义分割中常用的函数。

2.2.课程式局部到全局跨域适应

为了更好地说明课程式的local-to-global跨域适应,我们首先引入了一种基于熵的排序方法,将所有的目标补丁划分为容易补丁和困难补丁。然后,详细描述了跨域适应的第一和第二阶段。

2.2.1.Entropy-Based Patchwise排名

该方法的目的是根据补丁的困难程度,从目标域图像中逐步适应所有的补丁。但是在整个适配过程中不允许获取目标域的标注。因此,我们必须使用分割预测的熵映射来表示来自目标域t的每个patch的不确定性,这可以看作是一种无监督的方式。假设B和P是在源域s上训练良好的基于cnn的分割模型,每个目标patch的熵图M可以计算如下:
在这里插入图片描述
其中σ表示softmax激活函数[12],[13],可以将高级语义特征转换为C类上的预测概率。
通过计算熵图M的均值m,可以得到分配给每个目标patch的跨域不确定性评分,如下所示
在这里插入图片描述
根据计算得到的patch - wise不确定性分值m,我们可以选择一些易于适应的目标补丁进行第一阶段的适应过程,给定易于适应的补丁在总目标补丁中所占的比例γ。

2.2.2.第一阶段的跨域适应

由于来自目标域相同RSI的patch在数据分布上存在一定的差异,跨域适配需要考虑这种差异。为此,我们采用两阶段跨域自适应算法,逐步提高目标域上的分割精度。在跨域适应的第一阶段,我们尝试将源域分割网络从原始的源patch适应到一些容易适应的目标patch。rsi的域差异主要来自两个方面:局部语义特征的变化,如局部纹理/外观的跨域差异;全局空间布局的变化,如全局空间结构的跨域差异。因此,为了成功地适应这种区域差异下的基于rsi的分割网络,我们需要分别考虑语义特征和空间信息的局部变化和全局变化。为此,我们首先设计了基于对抗性的语义级域分类器,测量局部区域语义的跨域特征差异,并对其进行优化以缩小域差距,具体如下:
在这里插入图片描述
DF表示语义级域分类器,源补丁和目标补丁的域标签分别为d = 1 ,d = 0, B(xs)(h,w)是特征地图B(xs)中位于(h,w)的特征。域分类器的功能是区分来自源或目标域的特征。需要注意的是,由于语义级域分类器DF的设计目的是为了对齐位于输入patch局部区域的语义特征,所以我们使用了一个空间密集的域分类器来进行特征适应,其中特征的空间分辨率可以被保留。本质上,它可以鼓励DF专注于学习给定的特征映射B(x)的局部区域的语义差异,而不是局部语义特征变化引起的域差异。DF的视觉网络结构如图3(a)所示。
另一方面,多个语义类别相关的全局布局信息的变化所导致的跨域差异也会降低目标域上的分割精度。因此,基于rsi的跨域适应框架应该能够处理这些特性的变化。由于由高级语义表示计算出的熵图与边缘检测结果相似,并且编码了对应语义类别的跨域空间信息[36],我们进一步开发了熵级域分类器来度量全局空间布局的跨域数据差异,如下所示:
在这里插入图片描述
其中DE表示源补丁和目标补丁的域标签为d = 1, d = 0的熵级域分类器,M(·)表示计算熵图的操作。通过对抗性学习,当学习到的骨干网络B和像素级分类模块P成功欺骗熵级域分类器DE时,可以进一步减少不同域之间的全局空间布局变化。图3 (b) 表示DE的详细网络结构。

2.2.3.第二阶段的跨域适应

在这一阶段,我们将第一阶段得到的初始对齐的分割模型进一步适应难以适应的目标patch。
如前所述,在适应化阶段,还需要考虑难以适应化斑块的局部和全局跨域特征变化,需要完全对齐。因此,本文提出的LGFA模块也被插入到初始对齐的分割模型中,以缓解难以适应的patch中存在的局部到全局特征差异。事实上,由于第一阶段是从源补丁xs到易于适应的目标补丁xeasyt的适应化,通过第一阶段训练的分割模型可以用来预测这些易于适应的目标补丁Y easyt的伪标签。此外,由于pseudo-labeled采用目标数据{xeasyt,Yeasyt}表示目标的近似数据分布域和源数据标记{x, Y}代表的实际数据分布源域,其余的可转让性,于各种目标补丁xhardt RSIs能够进一步提高,通过学习分割之间的对抗性的学习网络P {B}和域标识符{DF, DE}。

2.3.多域分类器的可视化网络结构

在这里插入图片描述

图3所示。(a)语义级域分类器和(b)熵级域分类器的网络结构。采用梯度反转层(GRL)[24]简单实现了骨干与域分类器之间的对抗性训练过程。

语义级域分类器DF和熵级域分类器DE都使用一个四层网络,由卷积操作和每层的LeakyReLU (LReLU)激活函数[14]组成。注意,我们在DF和DE的末尾插入一个sigmoid激活函数,因为域分类器的目的是区分来自源域或目标域的特征。DF采用核大小为3 × 3,步长为1的卷积运算,以保持输入特征的空间分辨率,而DE中卷积的步长设为2,以提取全局特定域的表示。我们设计的域分类器的可视化网络结构如图3所示。

2.4.整体损失函数与课程式适应策略

对于VHR rsi的跨域语义分割,需要对补丁级别(即从容易补丁到困难补丁的适配)和特征级别(即从局部特征变化到全局特征变化的适配)进行课程式的源目标适配。首先,在跨域适配的第一阶段,通过对源补丁和易传输补丁之间的差异进行对齐,可以安全地缓解域间差异,当源域分割模型完全不能解决复杂的跨域数据差异时,将忽略难以传输补丁的跨域对齐。这实际上可以避免所谓的负转移现象,即一些不可转移的目标斑块被过度适应。其次,LGFA模块实现的特征匹配也首先对域之间的局部语义特征差异进行对齐。基于局部语义特征变化的良好对齐模型,全局特征差异相对更容易对齐

2.4.1.优化目标

本文方法的整体损失函数为:
在这里插入图片描述
在这里插入图片描述
其中λ表示一个超参数来权衡源补丁xs的模型可分辨性和目标补丁xt的模型可转移性之间的重要性

2.4.2.课程模式的适应策略

首先,为了鼓励分割模型学习分割相关知识以供后续迁移,只使用源域标记的图像xs及其像素级注释Ys来训练基线分割模型。接下来,按照以下几个阶段依次进行课程式的适应。

  • 使用DF和DE适应容易的目标补丁:将已标记的源数据{xs, Ys}和未标记的易于适应的目标补丁xeasyt混合在一起进行跨域对齐。首先,联合优化(6)和(7)可以保证区域之间局部语义特征差异得到缓解。接下来,通过联合优化(6)和式(8)对模型进行进一步调整,以保证全局结构长期特征的一致性。
  • 使用DF和DE适应难目标patch:使用(6)和(7)在由标记源数据{xs, Ys}、伪标记易适应目标数据{xeasyt, Y’easyt}和未标记难适应目标patch xhardt组成的混合集合上进行硬目标patch的局部语义特征对齐。其次,全局结构特征差异也通过(6)和(8)进一步缩小。
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值