[CR]厚云填补_多云条件下土地覆盖分割的多模态多任务学习

Multi-Modal Multi-Task Learning for Semantic Segmentation of Land Cover Under Cloudy Conditions


Abstract

        地球的大部分表面被云层覆盖,导致光学图像遭受地面信息的严重退化。具有穿透云层能力的合成孔径雷达(SAR)图像可以为光学图像提供补充信息。因此,在多云条件下,光学影像与SAR影像的融合可以显著提高解译精度。在本文中,我们提出利用相关的去云任务对土地覆盖进行精确的多模态语义分割。为此,我们开发了一种端到端的可学习架构,该架构共同解决了云移除和土地覆盖语义分割的任务。云移除任务鼓励学习知识特征,以克服语义模糊的负面影响。实验表明,该算法能有效提高多云条件下的语义分割精度。

1  Introduction

        光学遥感卫星在收集地表信息时,不可避免地会遇到大气云的影响。这导致获取的数据可能无法满足遥感研究和应用的质量和数量要求,特别是在定量遥感和时间序列分析方面。合成孔径雷达(SAR)利用较长波长的电磁波谱,可以在多云条件下对地面物体进行观测,已成为光学遥感的重要补充。一方面,它可以弥补受云影响地区的信息缺失,在这些地区,光学图像无法提供清晰的观测。另一方面,它可以提供光学图像无法提供的独特见解。因此,光学图像和SAR图像的融合可以提供场景的全面和稳健的表示,从而从根本上克服了与多云条件下场景解释相关的挑战。

        近年来,SAR-光学数据融合得到了广泛的研究,并取得了很大的进展。然而,以往的大多数方法主要集中在SAR图像与无云光学图像的融合上。考虑多云条件下土地覆盖语义分割的多模态融合实际问题的工作较少,其中需要考虑云的负面影响。为了缓解这个问题,一种潜在的方法是在训练数据集中包括云覆盖的观测,使神经网络熟悉云的存在。然而,云层的覆盖导致光学图像中地物的信息不完整,从而导致两种模态之间对应的不确定性。现有的融合SAR图像和无云光学图像的网络通常假设两模态之间的特征是一致的,或者假设两模态之间的关系是预先确定的。因此,它们在融合SAR图像和混浊光学图像方面的性能受到限制。一种直观的替代方法是采用顺序范式,将云去除作为后续遥感图像场景理解的预处理步骤。在该范式中,云移除和场景理解这两个任务是独立优化的。大多数去云方法都依赖于逐像素损失函数,这样可以更好地去除视觉上好看的云。然而,逐像素损失函数忽略了语义信息。图像细节及其相应的判别特征不可避免地会被破坏。因此,作为预处理步骤的去云无法对下游的场景理解任务产生令人满意的积极影响。

        为了解决这个问题,我们开发了一个新的框架来训练一个深度神经网络,其中云去除和土地覆盖的语义分割同时进行。这种端到端的学习过程使我们能够实现低级图像恢复任务和高级语义理解任务之间的相互协作。通过学习可见度增强任务,网络从多云的输入图像中生成无云特征。通过结合从辅助去云任务中提取的特征,土地覆盖分类任务可以减轻不完全模态导致的性能下降。此外,从土地覆盖分类任务中学习到的语义信息为云移除任务提供了有价值的指导。该框架通过多任务的信息交换和联合优化,有效地处理了云覆盖遥感图像,提高了语义分割性能。我们的统计分析表明,云去除任务有利于多云条件下的语义分割任务。

2  Methodology

2.1  不同任务的整合

        图1  表示所建议框架的体系结构。它通过各自的特征提取(FE)块初始化输入云图和相应的SAR图像,以提取特定于模态的特征。将初始化的特征输入到D AlignFuse块中,分层次实现多模态特征融合和交互。然后将相互补偿的特征输入第二部分,重建无云图像并预测土地覆盖(LC)图。 

        图1说明了在我们提出的框架内云移除和语义分割任务的整合。该框架由两个主要部分组成。在第一部分中,我们利用光学和SAR图像的优势进行特征嵌入。由于云穿透的优势,SAR图像可以弥补多云区域的缺失信息,从而减轻了云去除任务的病态性。此外,由于成像机制的不同,SAR图像可以解锁单纯从光学图像中无法获得的独特信息,从而提高语义分割任务的准确性。我们的框架通过各自的特征提取块初始化输入云图和相应的SAR图像,以提取特定于模态的特征。然后使用AlignFuse块以分层方式增强这些初始化的特征。每个AlignFuse块由一个对齐块和一个融合块组成,便于多模态特征融合和交互。然后将相互补偿的特征输入到第二部分,重建无云图像并预测土地覆盖图。

2.2  组建的网络

去云任务

        云去除分支的主要目标是重建光学图像中被云遮挡的区域。这是通过聚合所有中间光学特征来实现的。具体来说,我们对AlignFuse块生成的所有光学特征映射采用了串联操作。然后将连接的特征映射输入到全局特征融合(GFF)模块中,以合并来自多个层次的信息。最后的输出是通过残差学习得到的。通过向生成无云图像的方向优化,该模型可以从被云覆盖的光学图像中提取出清晰的特征,从而缓解模态不完整导致的性能下降。

语义分割

        语义分割分支的目的是根据图像中的每个像素的语义为其分配特定的类标签。由于光学图像和SAR图像都为理解语义内容提供了有价值的信息,因此语义分割分支不仅聚合了所有中间光学特征,还聚合了所有中间SAR特征进行预测。与云移除分支类似,执行连接操作以合并AlignFuse块生成的所有光学和SAR特征图。连接的特征图随后通过另一个GFF模块来整合来自多个级别的信息。值得注意的是,由于作为低级任务的云删除和作为高级任务的语义分割之间的区别,不同AlignFuse块生成的特征映射对这两个任务的贡献是不同的。对于分割头,我们使用DeepLabv3,因为它在捕获精细细节和上下文信息方面已被证明有效。通过向准确预测土地覆盖类别的方向优化,有效增强了提取特征的语义信息,从而为学习去云任务提供更好的指导。

2.3  联合训练

        基于云移除和语义分割的损失函数计算复合损失,采用端到端方式对体系结构进行训练。对于消云损失L_{CR},我们采用了对多云区域有额外约束的Charbonnier损失。对于语义分割损失L_{SS},我们采用了交叉熵损失。复合损失定义如下:

        其中α控制云移除和语义分割任务之间的权衡。 

3  Experiments

3.1  数据

        本研究的实验是在M3R-CR大尺度数据集上进行的,该数据集包括全球采样的高分辨率光学观测,并结合成对雷达测量和像素级土地覆盖注释。该数据集包括来自660个感兴趣区域的60,000个训练样本和来自120个感兴趣区域的3,000个测试样本,涉及6种基本的土地覆盖类型。这780个roi互不重叠,分布在所有有人居住的大陆,贯穿所有气象季节。

3.2  实现细节

        该网络使用开源PyTorch框架在2个NVIDIA Geforce RTX 3090 GPU上实现。它包括6个AlignFuse块。权重参数α决定了云去除和语义分割任务之间的权衡,经验设置为1.0。对于网络训练,我们将样本随机裁剪成160 × 160的小块。批量大小设置为12,训练迭代的最大epoch设置为30。采用Adam优化器对参数进行优化。整个网络的初始学习率设置为10^{-4},除了AlignFuse块中的Alignment块学习率较小,为10^{-5}。从第10个epoch开始,学习率每5个epoch衰减50%。

3.3  结果

        表1  不同云覆盖水平下语义分割任务的性能(mIOU)。多云条件下的结果以黑色显示,表现最好的结果以粗体显示,次佳结果用下划线表示。 

        或者,我们可以放弃云移除任务,只执行语义分割任务。我们采用平均交联法(mIoU)进行分割评估,可以更好地处理类不平衡问题。不同云层覆盖水平下的结果见表1。无云光学图像仅在无云条件下可用。在多云条件下,只有多云光学图像和SAR图像可用。表1中阴天条件下的结果以黑色显示,表现最好的结果以粗体表示,次佳结果用下划线表示。 

        我们可以发现,在无云条件下,土地覆盖分类的精度明显高于多云条件。此外,结合SAR图像进行融合可以进一步提高精度。这种增强可归因于SAR图像与光学图像结合提供的额外信息。

        在不可避免的多云情况下,我们的框架额外考虑了云移除任务,达到了最佳性能。当直接预测土地覆盖图时,我们可以观察到,使用无云图像训练的模型在提供多云输入时,性能会出现相当大的下降。云层的影响随着云层覆盖水平的增加而变得更加明显。当模型使用浑浊图像进行训练时,性能下降得到了显著缓解。由于该模型对训练数据中呈现的浑浊图像的分布具有更强的鲁棒性。

        SAR影像在预测不同云覆盖水平的土地覆盖图方面表现相对稳定,其表现不如无云光学影像,但优于多云光学影像。在整合光学和SAR图像时,与仅使用光学图像相比,多云条件下的性能提升比无云条件下更显著。这是因为SAR图像不仅可以在无云区域提供额外的信息,而且可以有效地补偿光学图像中多云区域的缺失信息。此外,当云层覆盖率低于80%时,混浊光学图像与SAR图像的融合优于仅使用SAR图像。当地面信息几乎被云层遮挡时(云层覆盖率大于80%),SAR图像的融合效果优于多云光学图像与SAR图像的融合效果。额外的多云光学图像包含的地面场景信息相对较少,不仅不能提高土地覆盖语义分割的性能,而且阻碍了SAR图像的潜力。

        我们的框架不是直接进行预测,而是联合预测土地覆盖图和重建无云图像。由于去云任务的目的是减少云造成的模糊,因此与去云任务相结合的分割任务可以消除云对预测的负面影响。因此,在不同的云覆盖级别上,它比仅任务模型执行得更好。

4  Conclusion

        在这项工作中,我们提出了一种新的多模态多任务学习框架,用于多云条件下土地覆盖的语义分割。该框架包含了一个低级的视觉任务,云移除,以减轻由云覆盖引起的语义模糊的有害影响。通过该任务学习判别特征,有效地提高了云存在下地面覆盖语义分割的高级视觉任务的性能。在M3R-CR数据集上的实验结果表明,该方法可以有效地提高不同云层覆盖水平的土地覆盖分类性能。

  • 20
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

IAz-

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值