Cloud-EGAN: Rethinking CycleGAN From aFeature Enhancement Perspective for Cloud Removal 论文翻译

IEEE JOURNAL OF SELECTED TOPICS IN APPLIED EARTH OBSERVATIONS AND REMOTE SENSING

论文名称 Cloud- egan:从特征增强的角度重新思考CycleGAN,通过结合CNN和Transformer来去除云

摘要——云层覆盖给遥感图像的地球科学研究带来了重大挑战,其中厚云层会完全阻挡信息,导致信息丢失,而薄云层则会模糊地面物体。近年来,基于卷积神经网络(CNN)的深度学习(DL)方法已被引入云移除任务。然而,它们在上下文信息提取和聚合方面的能力较弱,限制了其性能。不幸的是,这种能力在表征具有复杂地面物体的遥感图像时起着至关重要的作用。在本文中,我们从特征增强的角度对传统的循环一致生成对抗网络(CycleGAN)进行了改进。更具体地说,首先设计了一个显著性增强(SE)模块,以替换CycleGAN中的原始CNN模块,重新校准通道注意力权重,以捕获多级特征图的详细信息。此外,还开发了一个高级特征增强(HFE)模块,以生成无云的上下文特征,同时抑制云层成分。特别是,HFE由基于CNN和基于Transformer的模块组成。前者通过采用残差学习和多尺度策略来增强局部高级特征,而后者则利用Swin Transformer模块捕获长距离上下文依赖关系,以从全局角度利用高级信息。利用SE和HFE模块,我们提出了一种有效的云增强生成对抗网络(Cloud-EGAN),以完成薄云和厚云的移除任务。在RICE和WHUS2-CR数据集上进行的大量实验证实了Cloud-EGAN的出色性能。

索引词——云移除、循环一致生成对抗网络(CycleGAN)、特征增强、遥感图像、Transformer。

稿件接收日期:2023年4月4日;修订日期:2023年5月10日;接受日期:2023年5月23日。发布日期:2023年6月2日;当前版本日期:2023年6月8日。本工作部分得到中国国家重点研发计划(项目编号:2018YFB1800800)的支持,部分得到深圳-香港科技合作区贺涛基础研究项目(项目编号:HZQB-KCZYZ-2021067)和深圳市杰出人才培养基金(项目编号:202002)的支持,部分得到广东省研究项目(项目编号:2017ZT07X152和2019CX01X104)的支持,部分得到广东省未来网络智能重点实验室(项目编号:2022B1212010001)的支持,部分得到中国国家自然科学基金(项目编号:41801323)的支持,以及部分得到中国国家重点研发计划(项目编号:2020YFA0714003)的支持。(马先平和黄一鸣对本文的贡献同等重要。)(通讯作者:张晓康;陈本明。)

马先平和黄一鸣来自中国香港中文大学深圳校区科学与工程学院,中国深圳518172(电子邮件:xianpingma@link.cuhk.edu.cn222012014@link.cuhk.edu.cnsimonpun@cuhk.edu.cn)。

张晓康来自武汉科技大学信息科学与工程学院,中国武汉430081(电子邮件:natezhangxk@gmail.com)。

黄波来自香港大学地理系,中国香港特别行政区999077(电子邮件:bohuang@cuhk.edu.hk)。

数字对象标识符:10.1109/JSTARS.2023.3280947

一、引言

        地球观测技术促进了遥感图像的获取。这些图像已成功用于许多关键应用中的地表信息提取,包括目标检测[1]、[2]、[3]、场景分类[4]、[5]、[6]和语义分割[7]、[8]、[9]、[10]。然而,这类光学卫星图像不可避免地会受到大气和光照条件的影响,从而导致图像质量下降。特别是,遥感图像常常受到云层污染的影响,这大大降低了卫星传感器获得的信号质量。具体来说,云层会严重降低图像的可见度和饱和度,从而阻碍后续的图像应用[11]。虽然薄云覆盖区域仍表现出有限的地面特征,但厚云下的上下文信息则完全丢失。与自然数字图像相比,遥感图像包含更复杂的空间结构和更丰富的光谱信息,用于地表物体表征,这使得云移除任务更具挑战性。因此,迫切需要开发高效的信号处理算法,以从受云层扭曲的遥感图像中准确恢复真实的地表信息。在文献中,现有的云移除方法可以分为两类,即基于手工特征的传统方法和基于深度学习(DL)的方法[12]、[13]、[14]、[15]、[16]、[17]、[18]。

        传统方法,如多时相字典学习(MDL)[19]、使用同态滤波的薄云移除(TCHF)[20]以及基于信号传输原理和光谱混合分析(ST-SMA)[21]的方法,需要手工特征来估计云分布。特别是,MDL在光谱域中分别学习云覆盖区域和无云区域的字典,而TCHF则在频域中使用经典的同态滤波器。此外,ST-SMA是基于信号传输和光谱混合分析开发的。尽管这些方法具有许多优点,但它们主要是为薄云移除而设计的,而忽略了厚云场景。此外,它们的可行性和性能通常受到不规则云分布和手工特征选择的限制。

        随着深度学习(DL)技术的快速发展,基于DL的云移除方法因其从遥感图像中挖掘代表性特征的优越性能而吸引了大量研究关注[22]。文献中大多数现有的基于DL的云移除方法都是利用遥感图像的抽象和概念表示建立在卷积神经网络(CNN)之上的。一般来说,用于云移除的基于DL的网络可以分为两类,即纯编码器-解码器方法[11]、[23]、[24]和基于生成对抗网络(GAN)的方法[12]、[25]、[26]、[27]、[28]、[29]、[30]。对于纯编码器-解码器网络,多尺度特征CNN[23]探索了多尺度高级特征,以同时检测薄云、厚云和无云像素,而残差学习和通道注意力机制[11]则将残差连接与通道注意力机制相结合,以捕获不同卷积层中的细节。此外,条件变分自编码器(CVAE)[24]应用了一个具有CVAE的概率图模型,根据图像退化过程恢复无云图像。上述编码器-解码器模型利用编码器从遥感图像中提取丰富的特征,而解码器则用于在恢复无云图像的详细信息之前解释抽象信息。然而,这些方法受到CNN特征表示能力较弱的限制。因此,需要额外的努力来增强CNN的特征表示能力,以生成高质量的无云图像。

        与编码器-解码器方法类似,基于GAN的模型也由两部分组成,即生成器和判别器[31]。由于其出色的建模输入和输出数据之间关系的能力,GAN在计算机视觉领域获得了巨大的人气。对于云移除任务,条件GAN(cGAN)[25]采用了基于UNet的简单结构作为生成器,而PatchGAN[32]则作为判别器。此外,还设计了一个使用结构相似性(SSIM)损失的混合损失函数[33],以提高生成图像与真实图像之间的SSIM。最近,提出了空间注意力GAN(SpAGAN)[27],通过在生成器中集成局部到全局的空间注意力来移除云层,而MSDA-CR[29]则提出了一种基于云畸变感知表示学习的网格网络,以模拟云反射和传输的影响。此外,AMGAN-CR[30]通过注意力递归网络生成注意力图,并利用注意力残差网络根据注意力图移除云层。这些方法通过增强编码器或损失函数设计,通过单向映射(即从有云图像到无云图像)改进了基于GAN的框架。

        最近,循环一致GAN(CycleGAN)模型[34]已被广泛应用于图像风格转换。CycleGAN试图学习域之间的双向映射,同时结合循环一致性损失和恒等损失,以有效保留颜色和纹理。CloudGAN[12]将CycleGAN引入云移除领域,以循环结构学习有云图像与其对应无云图像之间的特征表示映射。在云移除任务中,在正向过程中预测云层下的对象之前,也有必要学习云层外部的全局颜色组成和纹理。循环过程中的反向阶段可以通过恢复原始云图来促进正向过程中这些全局表示的学习。然而,由于其直接的编码结构和缺乏对通道和空间关系的建模,它存在边缘模糊的问题。在此基础上,基于SSIM和感知损失的CycleGAN[26]用于SAR到光学图像的转换,将最小二乘损失函数[35]引入CycleGAN,以提高图像翻译中的训练稳定性。此外,还开发了多模态GAN(MMGAN)[28],以生成多个最可能的无云输出,然后通过基于感知的图像质量评估器选择最佳生成的无云图像。尽管这些方法具有许多优点,但由于它们是对最初为自然图像设计的模型的直接扩展,因此在重建遥感图像的详细特征方面表现不佳。与自然场景图像相比,遥感图像表现出更严重的光谱异质性和更复杂的地面对象空间关系[36]、[37]。通常,不希望的云层具有各种厚度,并且图像是在不同的照明条件下获取的[38]。因此,如果直接应用于云移除,那么为自然场景图像开发的那些图像恢复模型的性能通常较差。此外,由于这些模型的计算复杂度过高,因此很难处理大规模的云移除任务。

        为了提升卷积神经网络(CNNs)和生成对抗网络(GANs)在包含长距离上下文信息方面的表示能力,新开发的Transformer已被引入云移除任务中。得益于其非局部注意力机制,Transformer能够建立具有出色可扩展性的长距离依赖关系[39]、[40]。例如,在具有全局-局部融合的SAR增强云移除任务中[15],在每个卷积层之后添加了Swin Transformer层[41],以实现跨窗口特征交互。CloudTran[42]则使用轴向Transformer[43]替代了基于CNN的编码器,以估计低分辨率的无云图像。然而,Transformer仅被视为特征提取器来利用全局信息,而缺乏充分提取丰富局部特征的能力。相比之下,CNN通过卷积层中的局部感受野来利用和聚合丰富的局部特征[3]、[10]。一种简单利用Transformer和CNN优势的方法是直接构建一个双分支编码器,分别由Transformer和CNN提取全局和局部信息[44]、[45]、[46]、[47]。最近,[48]和[49]的作者提出使用CNN提取多尺度特征,同时探索Transformer增强这些多尺度特征的能力。相反,Fang等人[50]进一步通过将空间注意力应用于每个Swin Transformer层之后,将Swin Transformer层和卷积层相结合。然而,上述所有方法都未能探索通过结合CNN和Transformer来增强高级语义特征的潜力。因此,研究如何在云移除任务中结合CNN和Transformer来填补这一空白具有极大的实际意义。

        受上述挑战的启发,本文引入了一种基于CycleGAN的模型,用于从两个不同的增强角度去除薄云和厚云。首先,通过添加一个显著性增强(SE)模块来增强骨干网络,以从每个卷积块中提取具有更强显著性的分层判别特征。因此,减少了云覆盖成分和模糊边缘;其次,与现有使用CNN增强高级特征的模型[6]、[9]、[23]不同,本文提出通过联合利用CNN和Transformer来探索丰富的高级特征。本文的主要贡献可以概括如下:

1)利用SE模块通过重新校准特征通道的注意力权重,从每个卷积块生成增强的分层特征图。结果减少了云覆盖成分和模糊边缘;

2)在编码器和解码器之间设计了一个高级特征增强(HFE)模块,以有效探索和聚合高级特征。具体来说,HFE由基于CNN的HFE(CHFE)模块和基于Transformer的HFE(THFE)模块组成。CHFE旨在利用高级局部特征来获取足够的详细信息,而THFE则利用长距离上下文信息。在云增强GAN(Cloud-EGAN)框架下,将CHFE和THFE相结合,以保留恢复后的无云图像的全局特征;

3)在RICE和WHUS2-CR数据集上进行了广泛的实验,验证了Cloud-EGAN在分离云层和保留高质量地表信息方面的优越性。

本文的其余部分组织如下:第二节详细阐述了所提出的模型;第三节展示了广泛的实验结果并进行了分析;最后,第四节总结了本文。

II. 方法论

在本文中,提出了一种基于CycleGAN的架构,该架构在生成器中集成了SE(Squeeze-and-Excitation)和HFE(Hybrid Feature Enhancement)模块,用于从遥感图像中提取和聚合增强的局部和全局特征。以下首先概述了所提出的Cloud-EGAN,然后详细阐述了其每个关键组件。最后,设计了在所提出的模型中使用的混合损失函数。

A. 框架

图1. (a) Cloud-EGAN框架概述。GX2Y和GY2X是两个生成器,DX和DY是两个判别器。X, ˜X, Y, Y˜分别代表真实的云图、生成的云图、真实的无云图像和生成的无云图像。(b) 判别器遵循PatchGAN结构。(c) 生成器基于UNet框架,每个SE块的输出大小不同。注意,两个生成器GX2Y和GY2X具有相同的结构。类似地,两个判别器DX和DY也具有相同的结构。

如图1(a)所示,所提出的Cloud-EGAN基于CycleGAN开发,包括两个生成器GX2Y和GY2X以及两个判别器DX和DY。更具体地说,对于监督云移除任务,真实的含云图像X作为生成器GX2Y的输入,以重建预测的无云图像Y~,然后该图像由DY与真实的无云图像Y进行判别。同时,根据循环一致性原则,生成器GY2X用于从无云图像Y~生成含云图像X~。在Cloud-EGAN中,对输入Y也执行相同的操作。

如图1(b)所示,判别器DX和DY采用PatchGAN结构,具有堆叠的层次卷积块,以确定Y~的真实性。此外,生成器基于UNet架构[51]开发,通过编码器和解码器之间的对称连接来实现,如图1(c)所示。具体来说,生成器结合了SE和HFE模块,其中SE通过在每个级别的特征图上重新分配注意力权重来利用层次特征。然后,将生成的高级特征图输入到HFE模块中,通过CNN和Transformer的组合进一步增强特征表示。之后,在生成器的末端使用卷积预测头来恢复清晰的图像。关于SE和HFE模块的更多细节将在以下部分中详细阐述。

B. 显著性增强

图2所示。(a)编码和(b)解码中的SE模块结构。

遵循经典的通道注意力机制[52],SE模块通过为特征通道分配可学习的注意力权重,从多个特征级别自适应地利用遥感图像中更显著的特征。因此,SE可以增强从重度云覆盖区域的信息恢复,并生成高质量的无云特征。

图2(a)展示了编码过程,其中uk ∈ RDk×Hk×Wk表示从第一个卷积块(SE_Conv)生成的第k级特征图,其中Dk是通道维度,Hk = H/2k,Wk = W/2k。此外,应用了一个全局平均池化(GAP)层作为通道描述符,以利用丰富的特征并产生输出zk。

之后,使用两个1×1的SE_Conv块通过卷积操作来计算注意力权重,输出为sk ∈ RDk×1×1,具体给定为:

其中,W1和W2是两个卷积块的参数,δ(···)是sigmoid函数。最后,通过将sk与uk相乘,得到SE模块的输出,记为˜xk ∈ RDk×Hk×Wk。这里的˜xk是经过注意力权重调整后的特征图,强调了更重要的特征,并抑制了不太重要的特征。

图2(b)所示的解码过程与图2(a)相似,只是卷积块(SE_Conv)被上采样SE_Conv替换。

C. 高层特征增强

图3. 说明了(a)HFE模块,(b)连续的Swin Transformer块,以及(c)MSA(多头自注意力)的结构,其中LN和MLP分别代表层归一化层和多层感知机层。WMSA和SWMSA分别是具有常规窗口配置和移位窗口配置的MSA模块。(a)HFE模块。(b)Swin Transformer。(c)多头自注意力。

HFE模块旨在通过结合CHFE和THFE来学习丰富的高层局部和非局部特征,如图3所示。因此,它有助于从全局角度进一步表征无云表示并跨特征图传播上下文信息,这可以保持恢复特征的空间结构与真实值相同。

更具体地说,CHFE中使用了残差学习模块[53]和扩张卷积模块[54]来并行处理高层特征。特别是,高层特征Fh ∈ RD×H16×W16被输入到包含三个连续残差块(命名为HFE_ResConv)的残差学习模块中,以提取关键的地面信息,同时减少有云图像与无云图像之间的特征差异。同时,Fh通过具有残差结构的卷积块(命名为HFE_Conv)和三个具有不同扩张率的扩张卷积块(命名为HFE_DilatedConv)传递,以利用多尺度上下文信息,同时缓解有云特征的影响。之后,将连接后的输出通过HFE_Conv块进一步增强,以恢复原始特征大小。最后,将残差学习模块和扩张卷积模块的输出相加,形成精细的特征图F ∈ RD×H16×W16。

遵循经典Swin Transformer[41]的方法,THFE在补丁分区模块中将F分割成非重叠补丁,然后使用线性嵌入层将这些补丁投影到任意维度^D。之后,将这些补丁输入到连续的Swin Transformer块和补丁合并层中,以生成更高层次的特征表示。更具体地说,如图3(b)所示,每个连续的Swin Transformer块由残差结构、四个层归一化(LN)层、一个基于窗口的多头自注意力(WMSA)模块、一个移动WMSA(SWMSA)模块和两个具有GELU函数的多层感知器(MLP)层组成。

连续的Swin Transformer块的操作如图3(b)所示。对于WMSA和SWMSA的每个头,输入特征FS被输入到Swin Transformer块中,以计算多头自注意力(MSA)如下:

其中,QS、KS和VS分别表示投影后的查询、键和值特征,而WQ、WK和WV则是对应的参数度量。此外,BS是Swin Transformer中的可学习相对位置嵌入项,而Att(FS)表示每个头的自注意力输出。另外,φ(·)是softmax函数,d = ^D/4是每个头的通道维度。

之后,Swin Transformer块生成的每2×2相邻补丁的特征通过补丁合并层进行拼接。我们分别用H/32、W/32和4^D来表示补丁合并层之后的高度、宽度和通道数。最后,经过两个Swin Transformer块和重塑操作以保持与输入Fh相同的尺寸后,可以获得HFE模块的输出~Fh ∈ RD×H16×W16。

D. 损失函数

在本工作中,引入了一种新颖的混合损失函数,包括对抗损失Ladv、循环一致性损失Lcyc、感知损失Lper和身份损失Lid,以指导我们提出的模型的训练。值得注意的是,Ladv用于训练生成器和判别器,而Lcyc、Lper和Lid则用于训练生成器。混合损失函数L的表达式可以制定如下:

其中,λcyc、λper和λid是三个损失组件的可调权重。以下各节将详细介绍每种损失函数。

  1. 对抗损失:对抗损失旨在使重建的无云图像接近其对应的真实图像。我们采用与经典CycleGAN类似的结构,将对抗损失定义为:

        其中,x和y分别是输入的含云图像和无云图像样本。此外,Pdata(x)和Pdata(y)分别代表含云图像和无云图像的分布。总对抗目标Ladv由LX_adv_2Y和LY_2_adv_X组成,分别用于训练正向过程和反向过程。

  1. 循环一致性损失:循环一致性损失衡量生成图像与其对应真实图像之间的逐像素差异。它被用来减少模糊区域并使重建图像更接近真实图像。循环一致性损失的形式如下:

其中,GX2Y和GY2X是CloudEGAN中的两个生成器,|| · ||1表示封闭量的L1范数。

  1. 感知损失:在像素颜色和边缘损失计算的基础上,引入了感知损失[55]来衡量通过预训练网络(如在ImageNet[56]上预训练的VGG19)获得的真实图像和恢复图像的卷积输出之间的一致性。此外,还可以评估通过卷积层提取感知语义特征的能力。在数学上,感知损失的表达式可以定义为:

其中,φk表示从预训练的VGG19网络的第k层提取的特征图,Ck、Hk、Wk分别表示第k个特征图的通道数、高度和宽度。此外,x和x分别表示原始含云图像的像素强度和Cloud-EGAN生成的含云图像的像素强度。同时,y和y分别表示真实无云图像的像素强度和Cloud-EGAN生成的无云图像的像素强度。

  1. 身份损失:身份损失旨在保持输入和输出之间的颜色一致性。对于去云任务,期望在生成的无云图像中消除云层,同时无云区域在纹理细节和颜色组成上保持不变。通过应用身份损失,所提出的模型可以避免无云区域的颜色失真。其可以表示为:

II. 实验结果

在本节中,将首先描述实验数据集。之后,在报告和分析与其他基于深度学习的模型的比较之前,将介绍参数设置和评估指标。

A. 数据集

在本节中,所提出的模型在RICE数据集[57]和WHUS2-CR数据集[58]上进行了评估。具体来说,RICE数据集包含两个子数据集,分别命名为RICE1和RICE2。特别是,RICE1包含500对来自Google Earth的有云和无云图像对,地面分辨率为5米/像素。RICE1中的大多数样本都是薄云,其中地面物体大多可以识别。相比之下,RICE2数据集包含736组Landsat-8图像,地面分辨率为30米/像素。该数据集中的图像包含大量厚云,地面物体几乎无法识别。考虑到云层厚度和图像分辨率方面的巨大差异,我们分别在这两个子数据集上进行评估。此外,与MSDA-CR[29]和CR-MSS[58]利用多光谱数据作为输入不同,我们的评估主要集中在可见光(RGB)波段上。这是因为RGB图像更为常见[11]、[12]、[28]、[59]。然而,我们也进行了补充实验,以证明通过利用RGB和近红外(NIR)数据,所提出的模型可以很好地处理多光谱数据。

RICE数据集中的图像大小均为512×512像素。此外,WHUS2-CR数据集包含848对大小为256×256像素的Sentinel-2图像块。有云图像及其对应无云图像的获取时间间隔小于10天。此外,在RICE1数据集中,分别选择了400和100对图像用于训练和测试。同样,在RICE2数据集中,分别采用了589和147对图像作为训练和测试集。对于WHUS2-CR数据集,679对图像被用作训练数据,其余169对图像被保留用于测试。RICE1、RICE2和WHUS2-CR数据集中的一些典型样本如图4所示。

图4. 典型图像样本,分别来自(a)RICE1,(b)RICE2和(c)WHUS2-CR数据集。第一行和第二行分别是被云层覆盖的图像和无云图像。

B. 实现细节

在Cloud-EGAN的生成器中,编码器和解码器都采用了四个卷积层,其卷积核大小为4×4,步长为2。编码器中的通道数分别为{32, 64, 128, 256},解码器中的通道数则分别为{256, 128, 64, 32}。之后,使用一个卷积核大小为4×4、步长为1、通道数为3的卷积层来恢复与输入图像大小相同的无云图像。在判别器中,则采用了四个卷积核大小为4×4、步长为2的卷积层,其通道数分别为{64, 128, 256, 512}。此外,还使用了一个卷积核大小为4×4、步长为1、通道数为1的卷积层来判断生成的无云图像是否真实。值得注意的是,除了解码器和判别器中的分类器外,这些卷积层后面都跟着实例归一化[34]和参数为0.2的Leaky ReLU函数[60]。

在Cloud-EGAN中,学习率α最初设置为0.0001,之后每20个周期减半。此外,批处理大小设置为4。同时,采用了具有默认动量参数(即β1=0.9和β2=0.999)的Adam优化器[61]。最后,在损失函数中,λcyc、λper和λid分别设置为10、1和9。所有实验均在具有24GB RAM的单个NVIDIA GeForce RTX 3090 GPU上实现。

提出的Cloud-EGAN与六种基于深度学习的最先进的云移除方法进行了比较,这些方法分别是cGAN[25]、CloudGAN[12]、SpAGAN[27]、CVAE[24]、MSDA-CR[29]和MMGAN[28]。

C. 评估指标

为了进行定量评估,我们使用了两种广泛使用的指标:SSIM[62]和峰值信噪比(PSNR)[63]。具体来说,SSIM(结构相似性指数)表示为:

其中,μx、σx和σxy分别代表平均值、方差和协方差。C1和C2是用于稳定分母(分母较小时)的常数。SSIM值越大,表示生成的无云图像与真实图像之间的相似性越高,从而表明生成的无云图像质量更高。

此外,PSNR(峰值信噪比)定义为:

其中,MAXI代表生成的无云图像I中可能的最大像素值。此外,生成的无云图像I和相应的真实图像J的大小为M×N×3,(i, j)表示I和J中的像素索引。PSNR值越大,表示重构的无云图像中的图像失真越少。

最后,我们使用以下指标评估了所提出方法的计算复杂度,即浮点运算次数(FLOPs)、参数数量(M)和每秒帧数(FPS)。更具体地说,FLOP用于评估模型复杂度,而M用于衡量内存需求。此外,FPS用于评估执行速度。对于计算效率高的模型,它们的FLOP和M应该较小,而FPS应该较大。

D. 性能比较

图5. 在RICE1数据集的薄云覆盖场景下,不同模型去云结果的视觉比较。(a) 云图,(b) 真实图像,(c) cGAN [25],(d) CloudGAN [12],(e) SpAGAN [27],(f) CVAE [24],(g) MSDA-CR [29],(h) MMGAN [28],以及(i) 提出的Cloud-EGAN。

如图5所示,在薄云覆盖的场景中,Cloud-EGAN获得的结果具有较低的光谱失真和更高的SSIM值,与真实图像更为相似。此外,cGAN和CloudGAN的结果存在大量纹理细节损失,并且存在模糊区域,无法彻底恢复生成的无云图像中的地表信息。与cGAN和CloudGAN相比,SpAGAN和MSDA-CR表现出更好的结果,具有更明确的纹理细节。然而,观察到了一些颜色失真,因此无法完全恢复地表的颜色信息。最后,尽管CVAE和MMGAN的结果在颜色组成上与真实图像相似,但在几个区域中注意到了略微模糊的边缘。

图6. 在RICE2数据集的厚云覆盖场景下,不同模型去云结果的视觉比较。(a) 云图,(b) 真实图像,(c) cGAN [25],(d) CloudGAN [12],(e) SpAGAN [27],(f) CVAE [24],(g) MSDA-CR [29],(h) MMGAN [28],(i) 提出的Cloud-EGAN。

相比之下,如图6所示,在RICE2数据集的厚云覆盖场景中,Cloud-EGAN在所有评估方法中表现最佳。它生成了具有更好纹理结构和颜色组成的图像。相比之下,cGAN和CloudGAN无法彻底去除云层,在非云层区域产生了一些边缘模糊和颜色失真区域。此外,SpAGAN的结果显示出严重的细节损失,因为无法完全恢复地面场景的结构信息。此外,观察到CVAE、MSDA-CR和MMGAN的结果在颜色组成上更接近真实图像,尽管在一些区域中观察到了轻微的颜色失真。

图7. 在WHUS2-CR数据集上,不同模型去云结果的视觉比较。(a) 云图,(b) 真实图像,(c) cGAN [25],(d) CloudGAN [12],(e) SpAGAN [27],(f) CVAE [24],(g) MSDA-CR [29],(h) MMGAN [28],(i) 提出的Cloud-EGAN。

对于WHUS2-CR数据集,如图7所示,Cloud-EGAN生成的无云图像在颜色组成和纹理细节上与真实图像更为相似。相比之下,cGAN和CloudGAN由于特征提取能力有限而表现出最差的性能。与cGAN和CloudGAN相比,SpAGAN和MSDA-CR获得了更好的结果,具有更明显的背景和细节,但在无云区域仍存在一些颜色失真场景。最后,CVAE和MMGAN的结果在颜色色调上与真实图像视觉上接近。然而,这些模型丢失了一些上下文信息,并且云层没有被彻底分割。

表I中展示了在RICE1、RICE2和WHUS2-CR数据集上的定量结果。由于Cloud-EGAN在分层和深度上下文化空间中探索和聚合了丰富的局部和全局特征,因此它实现了比其他基于深度学习的方法更高的PSNR和SSIM值。特别是,标记为Cloud-EGAN*的结果是使用提出的Cloud-EGAN和四个输入波段(即RGB和NIR)生成的。从表I中可以明显看出,所提出的Cloud-EGAN也能在多光谱场景中很好地工作。此外,还表明NIR波段确实可以进一步提高去云性能。因此,可以更准确地描述有云区域和无云区域,从而有助于保持恢复后的图像接近真实图像。

E. 消融研究

1) 循环一致性:为了评估需要两个生成器和判别器的循环一致性的必要性,我们进行了消融实验,如表II中倒数第二行所示,这是只有一对生成器-判别器的传统GAN框架的结果。实验结果表明,循环一致机制使生成器能够学习更好的全局表示,从而促进对无云区域地面物体的预测。

2) 模型组件:我们通过从提出的Cloud-EGAN框架中移除各种模块来比较定量结果,如表II所示。请注意,仅通过利用卷积层后跟实例归一化和Leaky ReLU函数来消除SE模块,仍然遵循与图1(c)相同的基于UNet的架构。检查表II可以发现,集成所有特征增强模块在PSNR和SSIM方面都达到了最佳性能。因此,这证实了这些模块在聚合丰富的上下文特征并充分恢复地面表面信息方面的益处。值得注意的是,SE可以通过其他基于通道或空间的注意力模块进一步开发。我们为使用squeeze-and-excitation模块[52]来全面增强卷积网络提供了一个独特的视角。考虑到通用性和复杂性,我们最终选择了这种经典的通道注意力模块作为本工作中的特征增强结构。此外,没有SE模块的定量结果比没有HFE的结果要好。换句话说,HFE在去云性能中起着关键作用,进一步证明了为遥感图像增强高级特征的必要性。更具体地说,THFE使模型能够学习更多的全局表示,有助于模型更好地预测云层下的物体。如表II所示,使用THFE生成的结果比没有THFE的结果要好。类似地,表II中关于CHFE的观察表明,具有CHFE的模型可以学习更详细的表示。

3) 添加感知损失的有效性:为了评估感知损失的有效性,我们将提出的混合损失函数与经典CycleGAN中的损失函数进行了比较,如表III所示。经典CycleGAN中损失函数的可调权重λcyc和λid分别设置为10和9。可以观察到,在加入感知损失后,PSNR和SSIM方面有了不可忽视的改进。

F. 模型复杂度分析

表IV显示了我们在工作中对所有方法进行的复杂度评估结果。SPAGAN在这些指标上取得了最佳性能,因为它仅使用了简单的基于CNN的模块,但生成性能较差。与大多数其他方法相比,提出的Cloud-EGAN通过利用卷积操作和高效的WMSA模块,以较低的计算复杂度实现了显著的性能提升。同时,我们添加了更多模块,包括CHFE模块和THFE模块,以增强高级特征。因此,提出的Cloud-EGAN以更多的参数和较低的推理速度为代价,实现了更好的去云性能。

G. 讨论

图8. 在提出的Cloud-EGAN中,通过引入SE(Squeeze-and-Excitation)和HFE(Hybrid Feature Enhancement)模块的特征图比较。请注意,在训练过程中,更亮的区域会受到更高的关注,这些区域会利用更多的上下文特征。(a) 原始图像。(b) 第一个SE模块中第一个卷积块输出的特征图。(c) 第一个SE模块输出的特征图。(d) HFE输入的特征图。(e) HFE输出的特征图。

图9. 在(a)RICE1数据集,(b)RICE2数据集,和(c)WHUS2-CR数据集上,经典CycleGAN与Cloud-EGAN的训练收敛性比较。

实验结果表明,Cloud-EGAN在去云任务中的表现优于现有的基于深度学习的模型。这种优越的性能可以归因于其循环结构和SE与HFE模块的集成。更具体地说,Cloud-EGAN以循环一致的方式学习云图与对应无云图像之间的特征表示映射,这有助于增强模型的特征表示能力。此外,SE和HFE的结合可以有效地提取和聚合上下文信息,从而生成与真实情况相似的高质量无云图像。从图8所示的特征图中可以验证引入SE和HFE的有效性。值得注意的是,通过SE和HFE,信息丰富的特征细节得到了进一步增强。因此,在Cloud-EGAN中,可以保留富含地面信息的去云场景。此外,我们在RICE1、RICE2和WHUS2-CR数据集上比较了Cloud-EGAN和经典CycleGAN的训练损失收敛情况。如图9(a)-(c)所示,由于新颖的框架和感知损失的引入,Cloud-EGAN获得了比CycleGAN更好的收敛性能。

IV. 结论

在本文中,我们提出了一种新颖的基于CycleGAN的架构,名为Cloud-EGAN,用于执行监督去云任务,该架构可以有效地去除薄云和厚云,同时保持与地表的光谱和空间一致性。与现有的用于去云的基于深度学习的模型相比,所提出的Cloud-EGAN利用循环架构并集成了SE和HFE模块,以增强识别具有复杂地面物体的遥感图像的能力。循环架构旨在重新校准层次化通道的权重,而SE和HFE模块的集成则用于进一步聚合局部和全局的高级上下文特征。因此,通过结合CNN和Transformer,所提出的Cloud-EGAN能够更有效地利用多级丰富的特征,这些特征具有更高的显著性,能够突出地面信息,同时抑制云成分和模糊边缘。在RICE和WHUS2-CR数据集上的大量模拟结果证实了Cloud-EGAN在去除薄云和厚云方面相比现有基于深度学习的方法具有优越的去云性能。

本研究有几个可以进一步探索的扩展方向。首先,进一步研究如何为各种云覆盖场景构建计算效率更高的模型具有重要的实际意义。此外,考虑将所提出的Cloud-EGAN以无监督或半监督的方式应用于大规模遥感数据集(如Sentinel-2和Landsat-9图像)也很有趣。最后,未来研究将探索去云和其他下游任务(如语义分割)的端到端设计。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值