[CR]厚云填补_CloudSeg

CloudSeg: A multi-modal learning framework for robust land cover mapping under cloudy conditions


Abstract

        云层覆盖对光学图像解释构成了重大挑战,降低了地球表面的地面信息。合成孔径雷达(SAR)具有穿透云层的能力,为光学数据提供了补充信息。然而,现有的光学sar融合方法主要关注无云场景,忽略了多云条件下语义分割的实际挑战。为了解决这个问题,我们提出了CloudSeg,这是一个为云存在下的土地覆盖测绘量身定制的新框架。
        它从两个方面解决了云覆盖带来的挑战:

  • 减少被云遮挡的多云图像区域的语义歧义,增强无遮挡部分的有效信息。具体而言,CloudSeg采用多任务学习策略,同时处理低级的视觉任务和高级的语义理解任务,通过辅助的去云任务获取判别特征,减轻了云覆盖造成的语义模糊。
  • CloudSeg还引入了知识蒸馏策略,利用教师网络在无云条件下学习到的知识,指导学生网络克服云覆盖区域的干扰,增强云覆盖图像中无遮挡部分的有价值信息。

        在M3M-CR和WHU-OPT-SAR两个数据集上进行的大量实验证明了所提出的CloudSeg方法在多云条件下土地覆盖制图的有效性和优越性。具体来说,CloudSeg在M3M-CR上的mIoU比最先进的竞争对手高出3.16%,在WHU-OPT-SAR上高出5.56%,突出了其在分析经常被云遮挡的区域方面的巨大优势。

1 Introduction 

        光学遥感卫星在收集地表信息时,不可避免地会遇到大气云的影响。这导致获取的数据可能无法满足遥感研究和应用的质量和数量要求,特别是在定量遥感和时间序列分析方面。例如,在像孟加拉国和亚马逊盆地这样的地区,云覆盖全年持续,获取无云光学图像以进行精确的土地覆盖测绘提出了重大挑战。此外,对于需要及时信息的应用,例如农业监测和灾害应急管理,获取无云图像的潜在延迟可能妨碍对地面迅速变化的情况作出有效反应。合成孔径雷达(SAR)利用较长波长的电磁波谱,可以在多云条件下观测地面物体,已成为光学遥感的重要补充。一方面,它可以弥补受云影响地区的信息缺失,在这些地区,光学图像无法提供清晰的观测。另一方面,它可以提供光学图像无法提供的独特见解。因此,光学图像和SAR图像的融合可以提供更全面和健壮的场景表示,从而从根本上克服了多云条件下场景解释的挑战。

        图1 云覆盖对土地覆盖分类的影响分析(下图为绿色和橙色方格突出显示的局部区域的详细信息):云对土地覆盖分类的影响超出了云直接覆盖的区域,如黑色框内的区域,也影响到周围的无云区域,如蓝色框内的区域。(a)无云光学图像。(b)云覆盖光学图像。(c)土地覆盖注释。(d)输入无云图像后的结果。(e)以云图为输入的结果。(对于图例中有关颜色的解释,请参阅本文的网页版本。) 

        近年来,光学与SAR数据融合得到了广泛的研究,并取得了很大的进展。然而,以往的大多数方法主要集中在SAR图像与无云光学图像的融合上。考虑多云条件下土地覆盖语义分割的多模态融合实际问题的工作较少,其中需要考虑云的负面影响。如图1所示,在无云图像上训练的模型在处理有云图像时可能会失败。更重要的是,云对土地覆盖分类的影响超出了它们直接覆盖的区域。它们的存在甚至会影响附近无云地区的分类结果。由于空间维度上语义的相互依赖,多云区和无云区特征之间相互作用,共同决定了整体的土地覆盖分类结果。这也意味着只考虑单个区域的特征是不够的,需要考虑整个场景的特征交互。因此,在本研究中,为了提高云覆盖条件下土地覆盖分类的精度,我们主要从以下两个方面着手:

  • 减少多云区域的语义歧异--在被云覆盖的区域,光学图像的信息经常被扭曲或丢失,导致这些区域的语义模糊。这种模糊性产生了两个主要问题。一方面,它直接干扰了云覆盖区域内的特征融合过程。另一方面,这种干扰可能会进一步影响附近无云区域的特征表示。因此,必须确保对云覆盖区域内SAR特征的准确识别和利用,以减少这些区域的语义歧义,防止它们误导相邻的无云区域。
  • 加强无云地区的有效资讯--在无云地区,无论是光学影像还是SAR影像都呈现出清晰完整的地物特征,对土地覆被分类具有重要价值。为了提高模型的预测性能,有效利用这些特征资源是至关重要的。通过深入研究无云地区的地物,可以推断出云覆盖地区可能存在的相似或邻近的地物。然而,考虑无云区域中被云覆盖区域的潜在干扰也很重要。因此,应采取相应的策略,尽量减少这种干扰,保证预测的准确性。

        在这项工作中,我们提出了一个名为CloudSeg的新框架,它整合了这两种观点来解决云覆盖的负面影响。具体而言,它采用多任务学习策略,同时处理低级视觉任务和高级语义理解任务,促进云清除和土地覆盖分类任务之间的协作。 云移除任务的学习有助于模型从云覆盖区域获取更多的判别特征,并有效缓解云覆盖引起的语义模糊问题。土地覆盖分类任务利用从辅助去云任务中获得的特征信息,缓解了光学图像信息丢失导致的性能下降。此外,CloudSeg采用知识蒸馏策略,学生网络在无云条件下模拟教师网络的预测。在此过程中,教师网结合无云区域的光学影像和SAR影像进行土地覆盖分类,指导学生网克服无云区域的干扰,准确获取无云区域完整、鲁棒的特征。
在M3M-CR和WHU-OPT-SAR数据集上进行了大量实验,验证了该方法的有效性。我们的CloudSeg显著提高了云覆盖条件下的土地覆盖分类性能,在M3M-CR上的mIoU比目前最先进的多模态语义分割方法高出3.16%,在WHU-OPT-SAR上高出5.56%。

        本文是我们之前工作的扩展版本,有几个改进:

  • 我们通过实现三分支网络结构来增强CloudSeg架构。该设计是为特定模式和模式共享的表示学习量身定制的,显著改善了云移除和土地覆盖分类任务之间的协作。
  • 提出了一种新的知识蒸馏策略,旨在增强光学图像中未遮挡部分保留的信息,进一步减轻云覆盖引起的性能下降。
  • 我们扩展了我们的评估,包括比较最先进的方法,消融研究,并在一个新的数据集WHU-OPT-SAR上验证,为CloudSeg方法提供更全面和深入的分析。

2 Related work

        土地覆盖分类是一个长期存在的研究问题,其目的是为遥感图像中的每个像素分配特定的土地覆盖标签。解决这一问题的早期方法通常依赖于传统的机器学习分类器与先验知识或手工设计的特征相结合,因此无法捕获复杂的高级语义信息。相比之下,深度学习方法通过自动提取更复杂的特征来推进该领域,取得了令人印象深刻的结果。然而,在深度学习方法中使用全连接层作为分类器会导致空间信息的丢失,从而导致土地覆盖边界的不准确识别。最近土地覆盖分类的进展很大程度上归功于代表性的语义分割网络,如FCN、U-Net和SegNet,它们通过放弃全连接层,在该领域取得了重大突破。然而,对单模态数据的依赖往往不足以提供全面的信息,这仍然是进一步提高分类精度的障碍。

        为了获得更准确和全面的土地覆盖信息,探索多模态遥感数据的使用至关重要。有人采用多尺度分析方法融合光学影像和SAR影像的特征,然后使用SVM分类器对高云量地区的土地覆盖进行分类。有人使用叠加方法合并光学和偏振SAR特征,将SVM、RF和GoogLeNet模型应用于多云地区的城市土地覆盖分类。本研究还探讨了云量与分类精度的定量关系,以及SAR对有云量和无云量地区的影响。然而,这些算法将特征提取和分类器学习视为独立的模块,这可能导致次优的分类结果。 

        目前,许多受单模态语义分割算法启发的方法被证明在多模态土地覆盖分类中是有效的。例如,基于SegNet模型的V-FuseNet使用残差校正策略集成了光学和激光雷达数据的特征,用于预测土地覆盖图。有人提出了基于DeepLabv3+的多模态交叉关注网络,融合光学和SAR图像进行土地覆盖语义分割。然而,这些方法主要是基于高质量的光学图像开发的,通常假设不同模态之间的一致性或预定相关性。当云层遮挡了部分光学图像时,这种假设就会出现问题,导致信息不完整或扭曲,并与其他模式的数据不匹配。这种情况使多模态融合过程复杂化,潜在地降低了模型的泛化性,导致性能下降,有时甚至落后于单模态方法所能达到的性能。为了释放多模态土地覆盖分类的全部潜力,我们提出了一种新的多模态学习框架CloudSeg,它减少了多云地区的语义歧义,增强了无云地区的有效信息,以解决多云条件下语义分割的具体挑战。

3 Method

3.1 原始策略

        上图2展示了缓解云量对土地覆盖分类干扰的两种朴素策略。(a)顺序范式。(b)直截了当的范例。

        为了减轻云层对土地覆盖分类的干扰,一种直观的替代方法是采用顺序范式,将云层去除作为后续遥感图像场景理解的预处理步骤,如图2(a)所示。在这种模式下,利用SAR图像的辅助信息恢复被云遮挡的光学图像。然后将恢复的图像与SAR图像融合以预测土地覆盖类别。
        理想情况下,经过去云处理的光学图像往往表现出更清晰的特征,从而使土地覆盖分类更加直观和准确。然而,云去除和土地覆盖分类是独立优化的。大多数云去除方法依赖于逐像素损失函数,这样可以更好地去除视觉上好看的云。然而,逐像素损失函数忽略了语义信息。图像细节及其相应的判别特征不可避免地会被破坏。因此,在下游土地覆盖分类任务中,将去云作为预处理步骤可能无法达到最优效果。

        另一种可能的方法是使用原始的带有云覆盖的光学图像进行土地覆盖分类,即直接的范例,如图2(b)所示。在该策略中,云雾光学图像直接与SAR图像融合来预测土地覆盖类型。
        这种方法的核心思想是在训练数据集中包括云覆盖的观测,使神经网络熟悉云的存在。它大大降低了在云去除过程中无意中消除光学图像中存在的重要语义信息的风险。然而,浑浊光学图像中的语义信息可能不完整或扭曲,可能为学习过程提供误导性信息。此外,云层的存在会破坏光学和SAR图像之间的相关性和一致性,给这两种模式的融合带来额外的挑战。

3.2 CloudSeg

3.2.1 总览 

        所提出的CloudSeg算法的总体框架如图3所示。它主要涉及两个关键部分,以减轻云覆盖导致的性能下降:

  • 它结合了多任务学习策略,其中包括与核心土地覆盖分类任务相关的额外云移除任务,旨在降低云覆盖区域的语义不确定性。
  • 利用知识蒸馏,将无云条件下教师网络学习到的知识转移到学生网络中,从而从云覆盖图像的无障碍部分提取和增强关键信息。

        通过这两个关键组件的协同作用,CloudSeg可以有效地应对云覆盖带来的挑战。这两个关键组件的详细信息如下。

多任务学习

        土地覆盖分类任务的目标是整合来自光学和SAR图像的所有潜在有价值的信息,确保精确的像素级预测。为此,我们引入了一个云移除组件来增强与分类任务相关的学习过程。这一补充步骤旨在提高光学图像的信息质量,促进与SAR图像的鲁棒融合,从而产生稳定的结果。值得注意的是,土地覆盖分类任务在增强语义特征的同时,大幅提升了模型对图像内容的理解能力,为去云任务提供了更精确的指导。这意味着,土地覆盖分类和云清除任务中的特征是相互有益和可利用的。因此,通过联合学习这两个任务,模型可以在学习过程中优化它们之间的相互依赖关系,最终提高两个任务的性能。考虑到这两个任务之间的相关性,我们采用共享编码器来同时处理这两个任务,使它们之间能够交换和共享信息。与先去云后分类土地覆盖的顺序方法相比,同时处理这两项任务可以有效地减少误差传播和积累的可能性。 

        尽管土地覆盖分类和云清除任务表现出内在的联系,但它们的优化目标是不同的,可能导致不同的局部最优。为了抵消辅助任务在学习过程中对主要任务的隐性影响,辅助任务的输出必须在一定程度上独立于主要任务。因此,CloudSeg设计了专门的解码器,以单独解决土地覆盖分类和云清除问题。每个任务都由一个专门的损失函数来指导其优化。
        具体来说,对于土地覆盖分类任务,采用交叉熵损失:

        其中H和W分别表示图像的高度和宽度。C表示土地覆盖类别的数量,y_{h,w,c}\hat{y}_{h,w,c}分别表示C类中位于(h,w)的特定像元的地面真值标签和预测概率。

        对于CloudSeg中的云去除任务,使用了对多云区域进行额外约束的Charbonnier损失: 

        其中,\hat{I}^{cf}I^{cf} 分别对应去云图像和无云图像。\phi为Charbonnier损失函数。M表示用于确定图像中像素点是否被云遮挡的云掩膜,M_{h,w}=1表示位于(h,w)处的像素被云遮档,如果像素位于未遮挡部分则等于0。表示应用于多云地区的附加约束。

知识蒸馏

        知识蒸馏。从理论上讲,即使在有云覆盖的情况下,那些没有被云遮挡的区域也保留了有关地形特征的完整信息。因此,预计这些地区的分类结果将与无云条件下的分类结果一致。然而,由于无云区域和多云区域之间的特征相互作用,云的存在会影响图像中没有直接被云覆盖的区域。为了确保来自这些部分的信息不受云干扰的扭曲并被准确地表示,我们使用了一个在无云数据上训练的教师模型来指导模型在多云条件下的学习,因为教师模型理解数据在没有云干扰的情况下应该呈现的模式。通过将这些知识传递给学生模型,学生模型在处理由云层引起的干扰方面变得更加健壮。 

        具体来说,在没有云干扰的情况下,光学和SAR图像都提供了丰富的特征,对土地覆盖分类至关重要。CloudSeg涉及培训一个能够有效整合无云光学图像与SAR图像的教师网络。然后使用教师网络对无云数据进行预测,生成软标签,即土地覆盖类型的概率分布。
        然后使用这些软标签来训练学生网络。当学生网络使用在多云条件下获得的数据进行预测时,其目标是模仿无云条件下教师网络的预测行为。换句话说,在多云条件下,学生网络的预测应该尽可能与教师网络的预测保持一致。一种直接的方法是将学生和教师网络的分布完全对齐。然而,由于被云遮挡的地区的信息与无云条件下的信息不同,因此有增加容易出错的预测的趋势。

        因此,在蒸馏过程中,我们只对那些没有被云遮挡的区域有选择地对齐分布。用L1损失来衡量学生模型和教师模型的分布差异:

        其中,D^{T}表示教师网络处理无云光学图像和SAR图像时产生的软标签,D^{S}表示学生网络处理有云光学图像和SAR图像时产生的软标签。 

3.2.2 网络模型

多模态融合编码器

        考虑到土地覆盖分类和云清除任务之间的相关性,我们采用了一种共享编码器,称为多模态融合编码器,同时处理这两项任务,允许它们之间交换和共享信息。然而,每个任务都经过优化,以满足其特定的信息需求。去云任务侧重于利用光学图像和SAR图像之间的共性来补偿光学图像中的信息损失,而土地覆盖分类任务则旨在充分利用光学图像和SAR图像中存在的共性和互补信息,以实现全面的表示。因此,多模态融合编码器采用三支路网络,如图4(a)所示。
        具体来说,顶部和底部分支是为模式特定的表示学习而开发的,而中间分支是为模式共享的表示学习而设计的。它使编码器不仅可以独立捕获每种模态的特征,而且可以将这些特征进行整合,从而更好地满足除云和土地覆盖分类任务的具体要求。 

        多模态融合编码器中的每个分支都使用Segformer编码器作为其骨干网络。给定光学图像I^{cy}和SAR图像I^{sar},我们首先将它们输入到各自的分支中以提取模态特定的特征。模态共享分支将一个空张量作为输入,并分层次地聚合来自模态特定特征的信息。

        详细地说,特征集成块(Feature Integration Block,FIB)结合了各变量之间的关系,分别为:F^{sar}_{i}F^{opt}_{i}F^{c}_{i},从而产生融合的特征\tilde{F}^{c}_{i}。随后,特征补偿快(Feature Compensation Block,FCB)利用融合的特征对单个模态的特征进行增强,从而得到增强的特征\tilde{F}^{sar}_{i}\tilde{F}^{opt}_{i}

        FIB和FCB详细情况如图5所示。

        为了解释光学和SAR特征之间潜在的不对准,在特征交互之前加入了金字塔池化层(PPL)。给定特征F_{i}, PPL捕获上下文信息P_{i},用于随后的特征融合和增强。为了优先考虑受云层影响较小的特征,FIB结合了空间注意机制。在无云条件下,预计光学和SAR特征对土地覆盖的描述相对一致。
        然而,云层的存在会导致光学和SAR特征之间差异的放大。因此,通过比较光学特征和SAR特征的差异,可以有效地计算出空间注意权矩阵。随后,FIB结合不同分支的特征进行特征融合,以获得更全面的特征表示。考虑到来自不同分支的特征的重要性可能不同,FIB自适应学习每个特征通道的权重系数,突出重要的特征,抑制不重要的特征。将所有分支的特征相加得到融合特征\tilde{F}^{c}_{i}。最后,FCB对每个模态特征进行细化,计算每个模态特征与融合特征之间的差异,并通过门控函数传播信息。

语义分割解码器

        如图4(b)所示,语义分割解码器基于U-Net解码器架构。在土地覆盖分类任务中,综合特征的利用至关重要。因此,语义分割解码器采用融合特征(\tilde{F}^{c}_{i})^{4}_{i=1}来区分不同的土地覆盖分类。

云去除解码器

        云去除解码器的架构与语义分割解码器非常相似,如图4(c)所示。考虑到去云任务的目标是重建光学图像中被云覆盖遮挡的区域,因此去云解码器采用光学特征(\tilde{F}^{opt}_{i})^{4}_{i=1}对无云图像进行重建。

3.2.3 最佳化

        CloudSeg的优化包括对教师网络和学生网络的培训。CloudSeg框架内的教师网络利用无云光学和SAR图像来预测土地覆盖地图。它包括一个多模态融合编码器和一个语义分割解码器,它们与学生网络中的同类几乎相同,只有很小的区别。
        具体来说,教师网络是为处理不受云层遮挡的图像而量身定制的,其中它遇到的光学特征在所有地区都是全面的。因此,与学生网络不同,它没有整合空间注意机制来修改光学特征。在训练阶段,以交叉熵损失作为优化目标。

        学生网络的目标是在有云覆盖的情况下准确预测土地覆盖图。在训练阶段,它包含三个部分:

  • 分类损失L_{cls}
  • 重构损失L_{rec}
  • 蒸馏损失L_{dis}

        总体功能如下:

        其中,\alpha\beta表示平衡参数。 

4 Experiments

4.1 实验设置

数据集和指标

        我们的实验在两个基准数据集上进行:M3M-CR和WHU-OPT-SAR。M3M-CR数据集的特征是来自真实遥感场景的云覆盖光学图像,而WHU-OPT-SAR数据集不包括与无云对应的云覆盖图像。我们对WHU-OPT-SAR数据集中可用的无云图像进行人工云层合成,模拟云层覆盖的影响。使用合成云来评估处理云层的有效性已经在先前的研究中得到验证。
        这两个数据集的详情如下: 

  • M3M-CR。它包括在2020年整个气象季节从所有有人居住的大陆的780个非重叠感兴趣区域(roi)收集的总共63,000个样本。这些样本均匀分布在不同的云覆盖水平上。具体来说,660个roi中的6万个样本被分配给训练集,剩下的120个roi中的3000个样本被指定给测试集。在我们的研究中,我们进一步细分训练集,从65个roi中选择6494个样本作为验证集,剩下的53506个样本从595个roi中进行训练。每个样本由正校正、地理参考云和无云光学图像组成,以及相应的SAR图像和土地覆盖图。光学图像来自PlanetScope Level-3B大气层顶部反射率产品,包括四个光谱波段(RGB和NIR),空间分辨率为3 m,尺寸为300 × 300像素。SAR图像来源于Sentinel-1 Level-1 GRD产品,空间分辨率为10 m,采用IW模式,采用VV和VH两个偏振通道获取。SAR图像的大小为90 × 90像素。按照以前的做法,我们使用最近邻插值对SAR图像进行上采样,以匹配光学图像的大小。
  • WHU-OPT-SAR。它由位于中国湖北省的100个不同的roi组成,其中光学图像(RGB和近红外的四个通道)和SAR图像分别来自GF-1和GF-3,空间分辨率为5 m。我们将数据集分配如下:60个roi用于训练,20个roi用于验证,20个roi用于测试。使用256 × 256像素的滑动窗口进行裁剪,我们最终得到9922个训练样本,2537个验证样本和3042个测试样本。为了模拟云的干扰,在光学图像的每个波段均匀地加入柏林噪声。具体来说,训练、验证和测试数据集被统一分为五个子集来模拟不同的云覆盖水平。这些子集包含模拟云覆盖率分别为0% ~ 20%、20% ~ 40%、40% ~ 60%、60% ~ 80%和80% ~ 100%的光学图像。

        利用平均交联精度(Intersection over Union, mIoU)和平均像元精度(Pixel Accuracy, mPA)对土地覆盖分类效果进行评价。mIoU通过计算不同类别的交叉与联合的平均比率来量化预测的土地覆盖图与地面真实之间的重叠。主要评估模型的分割精度和一致性。同时,mPA计算正确分类像素占像素总数的比例,在所有类别中取平均值,从而在像素级别上深入了解模型的准确性。

        mIoU和mPA的计算公式如下: 

        式中,c为土地覆盖类别总数,TP_{c} 为c类真阳性像元个数,FP_{c}为c类假阳性像元个数,FN_{c}为c类假阴性像元个数。

实现细节

        我们的网络是在单个NVIDIA Geforce RTX 3090 GPU上使用Pytorch实现的。使用Adam优化器,学习率为10^{-4},每5个epoch衰减50%。批大小设置为32,训练迭代的最大epoch设置为30。按照的配置,将L_{rec}内的 λ 设置为5,并根据经验将权重因子\alpha\beta均设置为1。

4.2 与最先进方法的比较

        我们将提出的CloudSeg网络与最先进的多模态语义分割方法进行了比较,包括HAFNetE 、DCSA-Net、MCANet、AMM-FuseNet、PAGNet 和CMX。为了验证CloudSeg在缓解云覆盖导致的性能下降方面的优势,我们还训练了CloudSeg的一个变体,表示为CloudSeg*,仅基于语义分割任务的分类损失,即不采用多任务学习或知识蒸馏策略。

        表1 建议的CloudSeg网络与最先进的方法的定量比较,表现最好的结果用粗体表示,次佳的结果用下划线表示。CloudSeg*是CloudSeg的一个变体,它完全基于语义分割任务的分类损失进行训练,而不采用多任务学习或知识蒸馏策略。 

        定量结果如表1所示。为了提供更全面的分析,我们的评估不仅关注整体性能,还分别评估了云区和无云区的分类结果。无论是在云覆盖区域还是无云区域,与现有的最先进的数据集相比,所提出的CloudSeg网络的性能明显优于现有的最先进的方法。具体而言,在不使用多任务学习和知识蒸馏策略的情况下,我们的方法在M3M-CR数据集上的mIoU达到51.72%,在WHU-OPT-SAR数据集上的mIoU达到49.82%,超过了现有方法。结果表明,该网络能够有效地整合来自SAR图像和云覆盖光学图像的有价值信息。此外,多任务学习和知识蒸馏策略的加入进一步提高了我们的方法的性能。通过减少多云区域的语义歧义,增强无云区域的有效信息,我们的方法可以更好地解决云层的负面影响,并且优于最先进的多模态语义分割方法,在M3M-CR数据集上的mIOU增益约为3.16%,在WHU-OPT-SAR数据集上的mIOU增益约为5.56%。

        我们在图6和图7中可视化了土地覆盖分类的结果,其中我们展示了来自M3M-CR数据集和WHU-OPT-SAR数据集的两个典型场景,用于定性评估。与其他方法相比,CloudSeg获得的结果与地面真实值的一致性更高。虽然CloudSeg*显示的分割轮廓与CloudSeg相似,但它在分类精度方面落后。例如,在图6的第一个场景中,水体在光学图像中很难识别,但在SAR图像中却可以清晰地识别。CloudSeg*和所有其他竞争方法,融合了这两种模式的图像,不能提供准确的预测。此外,在同一场景中,尽管在光学和SAR图像中都清晰可见,但在CloudSeg*和所有其他竞争方法中仍然表现出一定的预测差异。它突出了云层对多模态融合的复杂影响。本文提出的CloudSeg能够减少云覆盖区域的语义歧义,增强无云区域的有效信息,成功地抵消了云干扰的不利影响,实现了对水体和荒地的更准确识别。此外,在图7所示的第二个场景中,CloudSeg为道路提供了连续的分割结果,而其他方法则呈现出碎片化或不连续的模式。进一步证明了CloudSeg在多云条件下土地覆盖语义分割方面的优势。值得注意的是,尽管与CloudSeg*相比,CloudSeg在分割结果上表现出了显著的定性增强,但这种增强可能只涉及到整体像素的一小部分。因此,它会导致mIoU和mAP等指标的微妙差异,使得改进在定量方面难以观察到。

        我们进一步评估了不同云层覆盖水平下的分类性能,如图8所示。与最先进的方法相比,所提出的方法在所有云层覆盖水平上都表现良好,表明分类精度与云层覆盖程度之间存在明显的负相关关系。此外,我们观察到我们的方法在WHU-OPT-SAR数据集中的性能改进比在M3M-CR数据集中更为明显。这种差异主要是由于WHU-OPT-SAR数据集中的云覆盖光学图像是合成的,可以精确识别受云覆盖影响的区域。相比之下,M3M-CR数据集中的云覆盖光学图像来自真实的遥感场景,而相关的云掩模来自行星实验室,其精度水平略低。多任务学习和知识蒸馏的损失函数依赖于这些云掩模,这有助于在两个数据集之间观察到的性能改进的差异。它还表明,随着更精确的云掩模,所提出的方法有可能实现更好的性能。CloudSeg减少了被云遮挡的多云图像区域的语义模糊,并增强了未遮挡部分的有效信息。

4.3 与原始策略的比较

        表2中,在M3M-CR数据集上对CloudSeg和naive策略进行定量比较。“Train”列指定用于训练模型的数据集,而“Test”列指定评估训练模型的条件。在无云条件下得到的结果用灰色表示。注:在“Train”和“Test”两列中,“Cloudy”为有云图像,“cloud- free”为无云图像。在表头中,“Cloudy”和“Cloud-Free”分别表示被云覆盖的图像中被遮挡和未遮挡的区域。在评估无云条件下的模型性能时,我们在评估过程中仍然考虑这些特定区域,以保持一致性。 

        图9 在不同云层覆盖水平的M3M-CR数据集上,CloudSeg与原始策略的定量比较。 

        为了进一步验证CloudSeg在减轻云层对土地覆盖分类干扰方面的优势,我们将CloudSeg与朴素策略(即直接和顺序范式)进行了比较。结果如表2所示。对于简单的范例,除了考虑云覆盖光学图像和SAR图像的组合作为训练集外,我们还考虑了其他四种不同的训练集:无云光学图像、云覆盖光学图像、SAR图像和无云光学图像和SAR图像的组合。在测试阶段,当处理多云条件时,只有多云光学图像和SAR图像可用。然而,在训练集中的光学图像是无云的情况下,我们还评估训练模型在无云条件下的性能作为基线,结果以灰色显示。对于顺序范式,我们使用Xu等人训练良好的Align-CR模型从云覆盖的光学图像中去除云,然后将其与SAR图像结合起来进行土地覆盖分类任务。此外,各模型在不同云覆盖水平下的整体性能如图9所示。

        我们可以发现,在无云条件下,土地覆盖分类的精度明显高于多云条件。此外,结合SAR图像进行融合可以进一步提高精度。这种增强可归因于SAR图像与光学图像结合提供的额外信息。

        在不可避免的多云情况下,我们的框架通过减少云覆盖区域的语义歧义和增强无云区域的有效信息来解决云覆盖的负面影响,达到最佳性能。当直接从多云条件下获取的数据预测土地覆盖图时,我们可以观察到,使用无云图像训练的模型在提供多云输入时性能显著下降。当模型使用浑浊图像进行训练时,性能下降得到了显著缓解。由于该模型对训练数据中呈现的浑浊图像的分布具有更强的鲁棒性。此外,我们对云覆盖区域和无云区域的性能退化进行了单独的评估。在SAR-光学数据融合的背景下,当使用无云条件下获取的数据作为输入时,使用无云光学和SAR图像训练的模型的性能可以作为使用相同网络架构时在多云条件下可能实现的最佳精度的基准。通过将该基准与使用在多云条件下获取的数据作为输入的模型的性能进行比较,我们可以评估由于云层覆盖导致的每个模型的性能下降,如图10所示。我们可以观察到,性能退化不仅发生在云覆盖区域,也发生在无云区域,即云对土地覆盖分类造成的干扰不仅影响直接覆盖区域,而且影响相邻的无云区域。随着云层覆盖水平的增加,这两个地区的性能下降情况加剧。具体来说,由于云覆盖区域的光学信息减少,与无云区域相比,云覆盖区域表现出更严重的性能下降。

        在预测不同云覆盖水平的土地覆盖图方面,SAR图像表现相对稳定,低于无云光学图像,但优于受显著云干扰的多云光学图像。在整合光学和SAR图像时,与仅使用光学图像相比,多云条件下的性能提升比无云条件下更显著。这是因为SAR图像不仅提供了光学图像中无云区域无法获得的独特见解,而且还有效地补偿了这些光学图像中云覆盖区域的缺失信息。

        我们进一步比较了顺序范式和直接方法,并观察到前者在mIoU方面表现出相对优越的性能,但在mPA方面略有滞后。这是由于作为预处理步骤的去云过程有效地重建了云覆盖区域的结构和形态特征,从而提高了mIoU。然而,在更精细的细节级别上,例如纹理信息,由于在处理过程中发生的模糊效果或小错误,像素级精度可能会受到损害。

        CloudSeg不是直接进行预测,而是同时预测土地覆盖地图并重建无云图像。CloudSeg通过底层图像恢复和高层语义理解任务的协同,有效降低了云带来的模糊性。此外,CloudSeg利用知识蒸馏来增强无云区域的有效信息。与其他方法相比,CloudSeg在云遮挡和无云区域都表现出卓越的性能。

4.4 消融实验

        CloudSeg主要涉及两个关键组件——多任务学习和知识提炼——以有效地抵消由于云覆盖而导致的性能下降。为了评估每个组件的影响,我们比较了有和没有辅助云清除(CR)任务和知识蒸馏(KD)的几个变体。定性和定性结果如表3和图11所示。我们发现,无论是采用多任务学习策略还是单独采用知识蒸馏策略,都能在一定程度上提高绩效。然而,这两种策略的结合会带来更显著的性能提升。如图11所示的第一个场景所示,当不使用任何一种策略时,无论是在云覆盖还是无云区域,水都几乎无法区分。单独使用任何一种策略时,水的分类精度都有所提高,但提高的局部程度不同。例如,仅使用多任务学习策略在水被云遮挡的图像底部产生更好的结果,而仅使用知识蒸馏策略在图像左上角(水没有被云遮挡)产生更好的结果。然而,单独使用这些策略仍然会导致某些不连续性。通过整合这两种策略,水的分割既准确又完整。这主要是由于云区和无云区特征之间的内在联系和相互依赖。云移除任务的引入减少了云覆盖区域的语义歧义,从而减少了它们对无云区域的干扰。此外,知识蒸馏策略的结合增强了无云地区的有效信息,促进了云覆盖地区更准确的恢复过程。因为云覆盖区域的恢复不仅依赖于SAR图像,还依赖于邻近无云区域的上下文信息。反过来,云清除任务的优化进一步减少无云区域的干扰。因此,通过同时采用这两种核心策略,CloudSeg实现了最大的性能提升。

        CloudSeg将教师网络在无云条件下学习到的知识转移到学生网络中,帮助学生网络克服云的干扰,准确表征云覆盖图像中无遮挡部分的特征。具体来说,CloudSeg对云覆盖图像中未遮挡部分的特征进行对齐,以避免因云遮挡区域的信息不对齐而导致的性能下降。为了验证我们方法的有效性,我们还对图像中所有区域的特征进行了对齐实验,而不管这些区域是否受到云的影响。

        如表4所示,我们观察到在所有区域强制特征对齐会导致云覆盖和无云区域的分类性能下降。与没有特征对齐的模型相比,该模型在无云区域略有改善,但在云覆盖区域有所下降。由于光学图像的云覆盖部分与无云光学图像中相应部分的信息不匹配,试图对齐这些不匹配的数据可能会导致学生模型的过拟合,从而导致其在云覆盖区域的预测性能下降。

5 Discussion

CloudSeg用于大面积土地覆盖制图

        我们进一步使用Planetscope光学数据和Sentinel-1 SAR数据将CloudSeg应用于两个大区域,并将其与性能最好的CMX方法进行比较,如图12所示。可以看出,尽管CMX在多云数据上进行了训练,以适应云的存在,但在将多云光学图像与SAR图像融合时,其结果仍然受到云的干扰,导致预测不准确。相比之下,我们的CloudSeg设计用于考虑云的干扰,生成的土地覆盖地图与地面事实高度一致。 

CloudSeg的副产品

        CloudSeg集成了一个辅助的云移除任务,以增强其核心土地覆盖分类任务的学习过程。因此,CloudSeg不仅可以预测土地覆盖地图,还可以同时生成无云光学图像。在本研究中,我们将CloudSeg的云去除组件与最先进的云去除方法进行了比较,包括DSen2-CR、GLF-CR和Align-CR,如表5所示。可以看出,Cloudseg的副产物达到了最好的性能,说明土地覆盖分类任务可以协同增强除云任务的有效性。

CloudSeg的适应性

        CloudSeg建立在SegFormer架构之上,继承了它的基本特征,如内存消耗、训练效率和推理速度。值得注意的是,CloudSeg提供了与其他语义分段架构集成的灵活性,支持针对特定任务和场景进行定制和优化。例如,轻量级网络的集成可以提高操作效率,从而提高处理速度并降低计算成本。结合细粒度特征提取模块可以增强CloudSeg处理高分辨率遥感图像的能力,突出其在不同应用中的多功能性。

CloudSeg的局限性

        在CloudSeg中,我们仅在无云区域战略性地调整学生和教师网络的预测。这种刻意的方法避免了与多云地区的预测强制对齐相关的性能下降,如4.4节所述,多云地区的信息与无云条件下的信息不匹配。这也表明了精确的云掩模对于CloudSeg整体有效性的重要性,如4.2节所述。尽管云检测是一个长期研究的领域,但由于云模式和大气条件的可变性和复杂性,当用作预处理步骤时,它固有地带来了误差积累的问题。这一挑战激励我们在CloudSeg的多任务框架中加入一个额外的云检测任务,旨在进一步提高多云条件下土地覆盖分类的准确性。

        此外,学生和教师网络之间的预测对齐是基于云遮挡和相应的无云图像之间没有土地覆盖变化的假设,因为在信息不匹配的区域强制对齐可能导致性能下降,如前所述。然而,同时捕捉一个特定位置的多云和无云视图是不切实际的。因此,作为参考的无云观测通常在时间上接近多云观测,导致一些不可避免的土地覆盖变化。在我们的研究中,我们使用M3M-3R数据集进行了真实多云条件下的土地覆盖制图,该数据集专门用于最小化土地覆盖变化。有云和无云的成对图像的时间偏移非常短,平均只有2.8天,这使得土地覆盖的变化通常可以忽略不计。如果在训练数据的选择过程中没有严格控制获取云图和无云图的间隔,就必须考虑到土地覆盖变化的影响。在这种情况下,建议首先对浑浊图像的未遮挡区域执行变化检测,然后只对齐那些没有变化的区域。

CloudSeg的未来增强

        卫星传感器可以连续观测地球上的同一区域,从而获得多时相、多模态的遥感图像。这些图像弥补了单一图像源的局限性,丰富了信息的完整性。在本研究中,考虑到可靠性和时效性,我们选择与光学图像在时间间隔上接近的SAR图像作为辅助信息。此外,云的动态特性意味着在不同时间获得的数据可以为被云遮挡的地区提供清晰的地表信息。在未来的研究中,我们将整合多时相和多模态数据的融合,以提高土地覆盖制图的精度,其中我们将解决与云干扰相关的更复杂的问题。

6 Conclusion

        我们提出了CloudSeg,一种新的多模态学习框架,用于多云条件下土地覆盖的语义分割。我们的方法的一个关键方面包括结合低层次的视觉任务,云清除,以抵消由云覆盖引起的语义模糊的不利影响。此外,CloudSeg利用无云条件下的知识转移来增强云覆盖场景中的多模式特征,优化多云图像中的无障碍区域。这两个组件的协同集成使CloudSeg能够有效地解决与土地覆盖分类中云覆盖相关的挑战。在M3R-CR和WHU-OPT-SAR数据集上的实验结果表明,我们的方法在提高所有云层覆盖的土地覆盖分类性能方面是有效的。 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

IAz-

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值