IDF-CR: Iterative Diffusion Process forDivide-and-Conquer Cloud Removal inRemote-sensing Images论文翻译

IDF-CR:迭代扩散法去除遥感图像中的分治云

TGRS 2024 Meilin Wang

代码地址  GitHub - SongYxing/IDF-CR

论文地址 IDF-CR: Iterative Diffusion Process for Divide-and-Conquer Cloud Removal in Remote-Sensing Images | IEEE Journals & Magazine | IEEE Xplore

目录

摘要

1 介绍

2 相关工作

3 方法

a.像素空间相位

b.迭代噪声扩散

4  实验

A.实现细节

B.像素空间方法的比较

C.基于扩散方法的比较

D.WHUS 2-CRV数据集上的薄云去除

E.消融研究

5 结论


摘要

        深度学习技术已经证明了它们在去除光学遥感图像中的云层覆盖方面的有效性。卷积神经网络(CNN)在云去除任务中发挥主导作用。然而,受卷积运算固有局限性的约束,CNN只能解决云遮挡的一小部分。近年来,扩散模型由于其强大的生成能力,在图像生成和重建方面已经达到了最先进的水平(SOTA)。受扩散模型快速发展的启发,本文首先提出了一种迭代扩散去云方法(IDF-CR),该方法具有很强的生成能力,能够实现分量分而治之的去云。IDF-CR由像素空间去云模块(Pixel-CR)和隐空间迭代噪声扩散网络(IND)组成。具体来说,IDF-CR分为两个阶段的模型,解决像素空间和潜在的空间。两阶段模型有助于从初步云减少到细致的细节细化的战略过渡。在像素空间阶段,Pixel-CR启动多云图像的处理,在提供具有先验除云知识的扩散模型之前产生次优的除云。在潜在空间阶段,扩散模型将低质量的云去除转化为高质量的干净输出。我们通过实现ControlNet来改进稳定扩散。此外,一个无监督的迭代噪声细化(INR)模块的扩散模型,以优化预测噪声的分布,从而提高先进的细节恢复。我们的模型表现最好的其他SOTA方法,包括图像重建和光学遥感云去除光学遥感数据集。

关键词 遥感影像,云去除,扩散模型,迭代噪声细化。

1 介绍

        光学遥感图像是能够封装关于表面的信息的视觉表示。对可见光和红外辐射都敏感的光学传感器收集光学遥感图像。这些视觉表示捕捉表征地球表面的光谱属性,便于提供表面特征的复杂细节,包括山脉,平原,湖泊,河流和各种地貌元素。因此,它们可用于各种应用,包括地理信息系统、环境监测、土地利用规划、农业、林业、城市规划和自然灾害监测。然而,无处不在的大气云通过模糊光学遥感图像的部分构成了不可避免的挑战。困难在于,云作为气候条件的产物,对气候变化的反应是如此复杂,以至于预测它们的轨迹成为一项艰巨的任务。此外,国际卫星云气候学项目发现,全球年平均云量高达66% [1]。因此,从光学遥感图像中去除云层的努力正在成为提高这类图像效用的主要途径。

        近年来,卷积神经网络(CNN)带来了范式转变。利用其强大的非线性表示能力,在各个领域的图像处理相关的许多挑战已被成功克服。例如,去雾[2]、超分辨率[3]—[6]和除云[7]—[9]等任务。特别是,DSen 2—CR [10]介绍了一种基于深度卷积网络的有效遥感图像重建网络。该方法主要利用残差网络巧妙地捕捉多云到无云状态的映射。此外,生成对抗网络(GAN)[11]展示了其生成能力。它通过一个生成器合成数据,然后使用一个消隐器来确定数据的真假,从而提高生成器的性能。Spa—GAN [12]使用GAN和CNN从光学遥感图像中去除云。它建议通过估计空间注意力来帮助GAN生成无云图像。这些方法大大提高了从遥感图像中去除云的能力。

        然而,所有上述框架都有固有的局限性。CNN固有的卷积运算只能捕获本地位置的信息,这使得它们不太适合长距离捕获和交互信息。与Transformer [13]相比,注意力机制的特征在于它能够捕获比卷积操作更广泛的特征信息。同时,视觉Transformer(ViT)[14]的设计有助于扩大图像的感知范围。而GAN面临着发电机和消弧线圈之间相互作用的挑战,这使得发电机和消弧线圈损耗难以同时收敛,往往导致模型失效。值得注意的是,生成模型发现与连续向量相比,离散向量的语义更容易理解[15]。

        最近,扩散模型[16]已经成为继GAN之后生成研究的新焦点。随后,许多工作试图提高扩散模型的效率。它在多项任务中取得了成功,包括图像超分辨率[17],分割[18]和分类[19],并一直表现出最先进的(SOTA)性能。一个特别有效的变体是稳定扩散模型(LDM)[20]。LDM被设计为使用冻结的矢量量化变分自动编码器(VQVAE)[15]将图像从像素空间变换到潜在空间,并且通过在潜在空间中执行的扩散和采样相位来实现。尽管扩散模型在各个领域的有效性,一个显着的缺乏持续在一个基于扩散的云去除网络的领域。鉴于此,我们奋进于利用扩散模型的强大生成能力来实现逼真的云去除。这一创新设计旨在利用扩散模型中强大的图像到图像映射能力,以实现高质量的除云结果。

        在本文中,我们提供了一个迭代扩散过程的强大的云去除网络,称为IDF—CR,专为光学遥感图像。受CDC [21]的启发,IDFCR体现了一种组件分而治之的架构,包括像素空间云去除(Pixel—CR)模块和迭代扩散过程模块,如下所示。(1)为了提高云去除的有效性,并通过扩散模型实现上级的视觉效果,我们通过在像素空间中对多云图像进行粗云去除来启动过程。利用Swin Transformer [22]保持长距离信息交互和局部特征提取能力的能力,我们利用Swin Transformer作为像素空间的基本操作。同时,在Swin Transformer之后引入了云的注意模块,为后续的特征提取模块提取云的位置信息。(2)由于得到的像素空间表达式倾向于简单地去除云,所以云占据的位置通常会产生失真像素簇的残留小区域。这种现象导致视觉上不令人满意的结果。同时,由于基于GAN的方法在全局封装综合数据分布方面的局限性[23],这导致在重建云层覆盖位置的纹理细节时,可视化效果不佳。相反,扩散模型在实现从随机概率分布到高分辨率图像的高质量映射方面表现出色[24]。因此,我们提倡使用扩散模型的细节恢复和云去除。通过VQVAE将低质量云去除输出从像素空间转换到潜在空间。所得离散向量用作扩散模型的输入。同时,我们应用ControlNet [25]来保持扩散模型的生成能力。(3)我们引入了一个迭代噪声细化(INR)模块的基础上的扩散模型,以优化图像细节恢复的权重。这涉及从UNet预测的噪声预测中构造更复杂的扩散离散向量zt,这允许迭代噪声细化。

        我们提出了一个组件分而治之的云去除框架,并比较所提出的方法与SOTA图像云去除网络Spa-GAN没有地面特征提示,再加上我们的重新训练的图像重建网络DiffBIR和SwinIR。这些全面的比较表明,IDF-CR提供了一个显着的性能飞跃,在该领域的单遥感图像云去除。此外,为了验证我们提出的模块的有效性,我们专门针对两阶段网络,多云注意和INR模块进行消融实验。一组全面的度量结果,加上可视化分析,证明IDF-CR的能力,不仅实现云去除,而且提高可视化。我们对这一努力的贡献主要概述如下:        

        1)我们提出了IDF—CR,一个开创性的网络,将扩散模型集成到云去除域。这种创新架构利用扩散模型的强大生成能力来实现组件分而治之的云去除。

        2)我们提出了云注意和INR模块的特征提取在像素空间和细节恢复在潜在空间,分别。与以前的图像重建网络不同,多云注意力向网络提供云的明确位置信息,从而允许Swin Transformer进行更有效的特征提取。INR旨在通过构建更复杂的潜在变量来提高扩散模型在预测噪声方面的准确性和鲁棒性,最终获得视觉上吸引人的结果。

        3)在RICE [26]和WHUS2—CRv [27]数据集上的大量实验结果证明了我们所提出的方法的有效性。

2 相关工作

        除云。图像去云是一个经典的低层图像处理任务,主要分为两类:深度学习方法和传统方法。后者以插值[28]、小波变换[29]和信息克隆[30]为特征,代表了应对这一挑战的范式。Xu等人。[31]使用稀疏表示来促进光谱域中薄云伪影的去除。在Liu等人[32]中,精心设计了一个低通滤波器,以选择性地提取云成分,从而实现云去除。另一方面,Lin等人[30]在检索地面信息的同时执行云去除操作。同时,Hu等人[33]使用沙漏滤波器组结合双树复小波变换从遥感图像中提取不同尺度和方向的信息。Lorenzi等人。[34]提出通过压缩感知来增强遥感图像中的指定云区域。Xu等人。[35]通过光谱混合分析纠正了云像素。Li等人。[36]使用多时相字典学习算法,扩展了贝叶斯云去除方法。然而,传统方法的有效性往往局限于特定的任务和数据集。面对新的复杂性,传统方法需要重新设计和定制。相反,CNN通常不需要这种大修。与传统方法相比,CNN表现出上级的泛化能力,使它们在处理图像内像素之间的复杂关系方面优于后者。

        Zhang et al. [37]是CNN应用于遥感图像云去除领域的先驱。它吸收了不同的数据源,并合并了各自的功能,以增加信息内容。[8]采用cGAN [38]来利用多光谱数据,以提高可见光RGB卫星图像的清晰度。类似地,Zheng等人。[39]采用GAN和UNet来获取多云和无云条件下的映射。额外的循环一致性用于约束发电机预测,确保无云场景相应地与指定位置对齐。

        合成孔径雷达(SAR)是一种利用雷达信号扫描地球表面的主动遥感技术。与其他光学遥感技术不同,合成孔径雷达图像不受云层和降水等气象限制的影响,使其能够在不同的环境背景下运行。然而,SAR图像缺乏光谱信息。Adridez等人。[40]使用GAN将SAR数据直接转换为RGB图像。这促使随后的概念化,将合成孔径雷达与光学遥感图像合并在同一空间位置。他们采用残差网络[10],GAN [41]和去卷积网络[42]等框架来结合两个光学数据集,以指导图像重建。随后,GLF-CR [43]提示SAR作为协调全球上下文交互的指南。SEN 12 MS-CRTS [44]为多光谱信息融合增加了时间维度。UncertainTS [45]将多变量不确定性量化引入多光谱信息融合中的云去除任务。

        上述CNN和Transformer方法显著地改进了遥感图像云去除。我们的目标是吸收这些方法的优点,同时整合一个更强大的扩散模型,以实现更高的精度,在云去除和更精细的细节恢复。

        困难的过程。虽然CNN和transformers目前主导着计算机视觉方法的最前沿,但扩散模型已成为一个强大的竞争者,展示了显着的生成能力,并在人工智能生成内容领域取得了重大进展。作为一项开创性的工作,去噪扩散概率模型(DDPM)[16]由两个主要过程组成:扩散和采样。扩散过程表现为马尔可夫链,逐渐将噪声引入到图像中,直到发生损坏。采样过程根据现有噪声的分布预测来自前一个时期的噪声,直到实现完全的图像恢复。然而,高质量样本的生成需要多次迭代。在这方面,DDIM [46]通过构建非马尔可夫扩散机制来加速采样过程。DreamBooth [47]采用特定概念的扩散模型微调来降低培训成本。此外,ControlNet [25]为预训练的扩散模型引入了多个辅助条件路径。稳定扩散[20]将扩散和采样投射到潜在空间中,确保稳定的扩散过程。

        扩散模型适用于各种视觉任务,包括文本到图像[48],视频生成[49],图像编辑[50]和图像重建[17]。然而,我们仍然不知道任何情况下,扩散模型已被用于云去除遥感图像。受这些杰出努力的启发,我们利用稳定扩散模型,以促进深度云去除和纹理细节重建的像素空间云去除模型的框架组成的Swin变压器。我们提出的IDF-CR代表了用于遥感云去除任务的开创性扩散模型,它解决了CNN和变压器的局限性,并提高了重建细节的保真度。

3 方法

        如图1所示。IDF-CR包括两个阶段。第一阶段是像素空间云去除阶段(Pixel-CR)。Pixel-CR模块基本上集成了Swin Transformer和Cloudy Attention组件。与CNN相比,Swin Transformer提供了上级像素重建能力。Cloudy attention作为辅助云去除模块,为云的空间定位提供指导。第二阶段是潜空间深度优化阶段。我们提出了一个迭代噪声扩散(IND)模型的细化。IND包括ControlNet和迭代噪声细化(INR)。ControlNet巧妙地调节了扩散模型的生成能力,而INR则是我们在这个框架中的创新建议。IND提高了预测噪声的准确性,这是通过扩散模型中的输入和输出的连续更新来增强的。并且潜在空间内的模拟数据与像素空间相比表现出更大程度的紧凑性。因此,在潜在空间内执行生成和去噪任务更加简单,有助于生成高质量的无云输出。

Fig. 1.提出的组件分而治之的云去除的训练和推理管道。它包括两个阶段:(像素空间):我们预训练了一个基于transformer的云去除模块(Pixel-CR)来执行像素空间中云的粗略消除。我们提供了一个先验知识的云去除IDecloudy-LQ的扩散模型在潜在的空间。(潜在空间):首先,采用VQ-VAE ε的编码器来实现从像素空间到潜在空间的变换。然后,基于CodeBook中的最近距离搜索将连续变量离散化。无云标签和粗云去除信息分别表示为z 0和条件变量Clatent。高质量的去云输出IDecloudy−HQ是通过我们提出的迭代噪声扩散(IND)模块实现的,该模块由ControlNet和迭代噪声细化(INR)组成。ControlNet是一个可训练的并行模块,任务是获取与Clatent和真实向量zt相关的数据分布知识。INR创建复杂的噪声模式,以提高精度噪声并增强模型的鲁棒性。最后,由VQ-VAE解码器D将z 0投影回像素空间。在推断期间,噪声ZT是从正态分布N(0,I)中随机抽取的。其中,BZZ和BZZ分别指推理和训练阶段。

a.像素空间相位

        Pixel-CR模块在像素空间中操作。它由三个模块组成,即浅层特征提取,云去除和多云图像重建。给定一个多云图像ICloudy ∈ RC×H×W,其中H和W分别表示图像的高度和宽度,C表示通道数。随后,ICloudy通过浅层特征提取模块进行初步处理,得到浅层特征:

        其中F0表示浅特征,HHF表示浅特征提取模块。HHF模块包括卷积层。

        随后采用由HCR表示的云去除模块来去除F0内的云。HCR在图2的灰色区域中示出。HCR由N个子模块组成,具体表示为HCR 1,HCR 2,.、HCRN。每个子模块HCRi包括Swin Transformer和多云注意力的组合。子模块通过Swin Transformer提取深层特征来启动该过程。云注意是一个基于卷积的空间注意模块,用于识别和提取深层特征中的注意。该关注组件描绘了云在特征内的空间分布,从而为网络提供指导,以有效地去除云。注意力通过逐元素乘法被并入深度特征,随后将所得输出添加到Swin Transformer深度特征。该操作可以简洁地表示为:        

图2.像素云去除模块(Pixel-CR)的图形表示。

        其中Attention表示多云注意输出,HCA表示多云注意模块,HST表示Swin Transformer。Fi对应于由HCRi提取的特征。当i = N时,将最终子模块表示为HCRN,在HCRN中引入卷积层,表示为:

        其中HCONV由卷积层表示。在云去除子模块的末尾添加新的卷积层会引入偏差。为卷积层构建的重建模块铺平道路[51]。

        最后,通过集成两个卷积层来优雅地构建重建模块。该公式简明地表示为:

        其中HRC表示重建模块,而IDECloudy—LQ表示低质量云去除输出。IDECloudy—LQ可视化的细化将通过潜在空间中的扩散模型来实现。

        Pixel-CR中的损失函数。像素空间中的损失被分成两个主分量。第一部分对应于云去除的损失,而第二部分对应于与注意力相关的损失。

        我们直接使用L1函数来计算云去除的损失:

        其中,ILabel表示与ICloudy位于相同位置的无云图像,并且间隔小于15天。注意力损失的目标由多云注意力的输出和M定义,其中M表示ILabel和ICloudy之间的视差的二值化图。注意力损失的计算通过L2函数完成:

        像素空间中的总Pixel-CR模块损失可以表示为:

b.迭代噪声扩散

        扩散模型 为了生成高质量的除云输出,我们采用了稳定扩散模型(LDM)。如图1所示,在扩散过程之前实现从像素空间到潜在空间的过渡。给定像素空间中的次优去云输出IDecloudy−LQ和无云标签ILabel,我们使用预训练VQ-VAE的编码器ε来执行IDecloudy−LQ和ILabel到潜在空间的转换。这些变换分别表示为ε(IDecloudy−LQ)和ε(ILabel)。另外,我们在潜空间中实现了从连续变量到离散变量的转换。我们建立了一个表示为CodeBook ∈ RB×D的潜在嵌入空间,其中B表示潜在嵌入空间的大小,D表示潜在变量的维数。如等式(9)中所解释的,通过码本的最近距离查找来找到潜在离散变量:

        其中b = arg minj|| zc −CodeBook[b]|| 2.zd和zc分别表示离散向量和连续向量在潜在空间中的表示。

        如图1(潜空间阶段)所示,离散潜变量z 0随后被扩散过程破坏。此外,z 0表示时刻0处的变量。在每个时刻,z引入噪声。当前时刻的噪声是从前一时刻导出的,公式为zt = atzt−1 + 1 − at,其中at表示权重项,而是符合高斯分布N(0,I)的噪声。zt-1可以通过递归从zt-2导出。因此,在任何给定时刻的zt可以通过下式从z 0计算:

        其中at是从a1到at的阶乘。

        其中at是从a1到at的阶乘。在采样过程期间,从时刻t可用的信息(表示为q(zt-1))导出时刻t-1的图像|zt,z0)。应用贝叶斯公式表明,q(zt−1| zt,z 0)符合高斯分布。然后,均值μt和方差σ2 t分别表示为1 at(zt− 1−at 1−a t)和1−at−1 1−at(1 − at)[16],其中t表示在时刻t符合高斯分布的未知噪声。通过UNet θ预测Δ t。因此,标准高斯噪声zt可以在时刻t随机生成,使得zt被反向采样回到z 0。最后,采用预先训练的VQ-VAE解码器D将z 0映射回像素空间。

        在训练期间,原始潜在向量z0根据等式(10)扩散到zt,并且导出时刻t处的真实噪声ε。UNet θ的输入包括zt和条件c,从而产生预测的噪声approd。LDM的损失函数可以表示为:

        其中t是从[0,T]随机采样的时刻,LDM的条件c为空。θ(zt,c,t)是UNet在权重θ下的噪声输出,输入为zt,c和t。

        ControlNet。我们采用ControlNet来避免在训练过程中面对小数据集时的过拟合,并确保从大数据集获得的上级图像重建的保真度。与对LDM的完全依赖相反,ControlNet创建了一个副本,将预训练的UNet的编码器和中间块复制为并行模块。来自并行模块的输出然后根据其对应的维度被无缝地发送到UNet解码器。具体地,冻结UNet被配置为保持从大量数据获取的数据映射的保真度。同时,并行模块提供用于捕获特定于任务的条件输入的端到端机制。在这方面,我们使用concat [Clatent,z0]作为ControlNet的条件输入,[Clatent,z0]为ControlNet提供无云和低质量云去除数据的数据分布信息。

        在采样过程中,随机生成的符合标准正态分布的变量ZT被创建为时刻T处的噪声。Clatent是从像素空间中的低质量输出转换的潜在离散向量。T-1时刻的噪声可以由UNet和并行模块联合预测。并行模块为UNet提供Clatent的特征,从而将与Clatent有关的信息合并到时刻T-1的噪声中。然后,使用DDPM算法,可以通过采样迭代地获得Z 0。

        在训练过程中,只有并行模块的权重被更新,而UNet的权重是固定的。训练损失描述如下:

算法1扩散训练。

算法2 DDPM步骤。

        迭代噪声细化。在扩散模型的训练过程中,利用给定的潜在变量z 0和真实的噪声Zt,通过以下等式(10)生成噪声zt。扩散模型要求UNet学习映射θ(zt)→ θ。然而,简单地利用合成噪声和原始噪声对进行模型训练(表示为{zt,zt})容易受到与较差的泛化和次优鲁棒性相关的挑战。我们希望增加训练数据的多样性,同时保持噪声分布的完整性。我们的目的是从现有数据中生成新的迭代。

        基于前面的动机,我们提出了一种迭代噪声细化(INR)方法。如图3所示,INR巧妙地减少了数据集中的偏差,从而在预测真实的噪声方面具有更好的性能[52]。具体地,如图3(B)所示,给定潜在向量z 0和真实的噪声对,我们创建合成噪声和真实的噪声对。也就是说,{f(z 0,z2),z3},其中f(·)表示扩散过程。然后,该{f(z 0,z 0),z 0}对用于更新UNet的初始权重θ0,基于先前的数据批次进行更新:

图三.迭代噪声细化(INR)模块的图形表示。我们给出了INR(上排)的数据分布细化实例和相应噪声采样(下排)之后的可视化结果。(Row 1):曲线显示数据的分布。蓝色实线表示真实噪声,而红色虚线表示z0的扩散过程之后的表示。红色实线表示UNet θ预测的噪声结果。渐变的方向将从红色实线更新为蓝色实线。(Row 2):显示不同迭代的预测噪声的可视化。S(λ)表示无云的采样结果。随着迭代次数的增加,观察到颜色对比度和纹理细化的逐渐改善。

        其中←表示梯度更新。我们导出对应于迭代θ0的输出θ0(f(z0,z2))。由于扩散模型损耗的设计,很明显θ0(f(z0,z0))的分布与θ 1的分布非常相似。我们将θ0(f(z0,z2))记为θ0。虽然不等价于,但接近于,并且可以解释为与一些未指定的简并结合的结果。我们可以利用θ0来预测真实的噪声。为此,我们的策略涉及构建一个新的合成噪声和真实噪声对:

        简单地说,INR直接用INR代替θ 0作为新的数据集。新创建的训练数据对{f(z0,z0),z0}和原始训练数据对{f(z0,z0),z0}共享相同的z0和Clatent。新的训练数据对的分布表现出增加的复杂性。这提高了UNet泛化和鲁棒性的细化。此外,前一时刻的梯度更新减少了真实噪声和预测噪声之间的差异,这有利于提高模型输出的准确性[52]。因此,可以使用新的训练数据对和更新的梯度来训练UNet:

        使用θ 2预测噪声更稳健,因为θ 2比θ 1处理更复杂的噪声。此外,根据损失函数的目标,这相当于不断优化中间输出并逐步细化预测噪声。然后,在z0和Clatent保持不变的情况下,我们可以不间断地迭代更新θ K次。为了详细说明,在K迭代的权重更新期间,应该用θ K − 1代替θ K − 2:

        在K次迭代之后,θK用于训练以下批次的{f(z 0,z 0),z 0}和Clatent。

算法3迭代噪声细化

4  实验

A.实现细节

        数据集。我们采用RICE [26]作为训练和测试数据集。RICE分为RICE 1和RICE 2,分别对应两个Pixel-CR模型和两个扩散模型。RICE 1由500个RGB对组成,显示云的存在和不存在。每幅图像的尺寸为512 × 512,通过Google Earth上的数据收集获得。图像之间的间隔时间限制在15天以内。RICE 2包含736个三元组,每个三元组包括{多云,无云,云掩模}。对于我们的实验,只考虑表示多云和无云条件的RGB对。这些图像保持512 × 512的大小,并来自Landsat 8 OLI/TIRS数据集。在RICE 1的情况下,400个图像被分配给训练集,而剩余的100个图像构成测试集。至于RICE 2,588幅图像被指定用于训练集,148幅图像被指定用于测试集。

        WHUS2—CRv [27]数据集代表了所有Sentinel—2波段薄云去除数据的全面集合。WHUS2—CRv由24450对Sentinel—2全波段卫星图像组成,有云和无云。其中,18816对用于训练,1888对用于验证,其余3746对用于测试。为避免反射率变化,多云和无云图像之间的时间间隔为10天。WHUS 2—CRv覆盖整个地球仪和所有季节。空间分辨率为10米、20米和60米的波段分别对应于384 × 384、192 × 192和64 × 64。

        实施.我们的模型通过两个不同的步骤进行训练。首先,Pixel-CR使用RICE 1和RICE 2单独训练。Pixel-CR的输入由尺寸为512 × 512的多云RGB图像组成。标签由无云RGB图像组成,输出形状与输入相同。云关注矩阵M包含多云和无云之间的差异,其大小限制在范围[0,1]内。批量大小、历元和学习率参数分别设置为1、200和4 × 10 − 4。中间层和嵌入层通道都设置为96。该架构包括3个Swin变压器,窗口大小设置为16。

        然后使用扩散进行进一步细化。同样,RICE 1和RICE 2用于个人训练。扩散的输入是像素空间中的云去除输出,表示为来自Pixel-CR的IDECloudy−LQ。参考对象是无云RGB图像。图像的尺寸和格式与Pixel-CR保持一致。对于像素和潜在空间转换,采用VQ-VAE的预训练编码器和解码器组件。批量大小、历元和学习率分别配置为2、100和1 × 10−4。在推理过程中,利用DDPM采样器对50个步骤进行采样,生成高质量的除云输出。细化迭代的次数被设置为K = 3。

        当使用WHUS 2-CRv数据集进行训练时,我们将输入和输出维度协调为384×384、192×192和64 × 64,而其余参数保持不变。

        评价方法。建立了两套评价指标,区分有参考和无参考。这些对应于无云图像的像素空间和潜在空间中的评估。当考虑参考时,与无云图像进行比较。这种方法使得使用所提供的度量来演示云去除和图像重建功能变得容易。

        参考评价指标包括PSNR、SSIM、LPIPS [56]和RMSE,用于综合图像评价。PSNR通过评估原始图像和处理后图像之间的峰值信噪比来量化图像质量。SSIM(Structural Similarity Index)衡量原始图像和处理后图像之间的结构相似性,考虑亮度、对比度和结构等属性,提供全面的图像质量评估。LPIPS(Learned Perceptual Image Patch Similarity)是一种用于评估图像之间感知相似性的度量标准。它比传统的像素度量,如均方误差(MSE)或PSNR更准确地捕捉人类感知的图像相似性的判断。此外,RMSE是统计学、数据分析和机器学习中广泛使用的度量标准,用于衡量预测模型的准确性。

        我们评估中使用的无参考指标包括NIQE [57](自然图像质量评估器),MANIQA [58](无参考图像质量评估的多维注意力网络),BRISQUE [59]和PI [60](感知指数)。这些指标不依赖于参考图像,提供了对图像真实性和质量的增强评估。NIQE,特别是,表现出高度的相关性与人类对图像质量的看法。MANIQA是2022年无参考指标的冠军算法[61]。BRISQUE使用自然场景统计来预测图像质量,而PI证明在各种类型的失真下评估图像质量是有效的。

B.像素空间方法的比较

        定量比较。在像素空间中,我们将我们的方法与其他SOTA方法进行了对比。特别是,SpaGAN [12],C2 PNet [53],RIDCP [54]和SGID-PFF [55]代表没有雷达数据参考的云去除模型。SwinIR [51]和DiffBIR [17]代表我们重新训练的图像重建模型。在WHUS 2CRv数据集上训练时,我们考虑Sentinel-2全波段方法,如RSC-Net [62],FCTF-Net [63],ReDehazeNet [64]和CR 4S 2 [27]作为基线。同时,Pixel-CR成为我们为像素空间云去除而设计的模型。

        RICE1.RICE 1由薄云控制。它们的去除相对不那么具有挑战性,与RICE 2相比,导致更好的指数值。与Spa—GAN云去除模型相比,Pixel—CR在所有指标上都表现出显著的性能,尽管其PSNR可能超过31。PixelCR的性能,通过这些指标衡量,显着超过以前的作品。SwinIR和DiffBIR使用RICE 1重新训练。SwinIR和DiffBIR的配置保持不变,并保持超参数的一致性。为了公平竞争,SwinIR和DiffBIR中的退化模型被排除在外。表I清楚地表明,在RICE 1数据集上,我们的Pixel—CR实现了整体参考指标的最优性。

 表1 在RICE数据集上训练的各种方法的定量无参考度量比较。

        RICE 2 RICE 2数据集包含大量密集的云量图像。从如此庞大的云结构中恢复无云图像是一项艰巨的挑战。因此,预期相关联的度量的值呈现递减。我们提出的方法优于现有的方法的功效。此外,PSNR和SSIM值分别超过30和0.9。这证明了我们的方法在像素空间中的鲁棒云去除能力。

        定性比较。我们选择一组像素空间的视觉样本。图4和图5分别表示与RICE 1和RICE 2数据集对应的视觉表示。对每种方法进行了比较分析。

见图4。像素空间定性分析提出的和现有的方法:C2PNet [53],RIDCP [54],SGID—PFF [55],Spa—GAN [12],SwinIR [51],DiffBIR [17],用于RICE 1数据集[26]上不同自然环境中的薄云去除性能。

图五.像素空间定性比较RICE 2数据集上不同云量的云去除结果。

        RICE1为了可视化,我们选择了三个不同的可视化区域,包括山区和平原,分别发出的样本。SpaGAN的输出图像亮度过度升高,以突出的条纹伪影为标志。C2PNet、RIDCP和SGID—PFF在以精确的颜色保真度有效地恢复纹理方面表现出局限性。SwinIR和DiffBIR的云缓解能力虽然尚可,但其特点是倾向于模糊。相比之下,我们的方法不仅实现了全面的云去除,而且在细节恢复的细微优化方面表现出色。

         RICE 2 我们选择了三个可视化样本,每个样本的特点是不同程度的云层覆盖。评估了该网络在减轻密集云形成的影响方面的有效性。C2 PNet、RIDCP和SGID-PFF无法有效消除小尺度区域密集云覆盖。值得注意的是,Spa-GAN受到大量云层的影响,表现在图5(第4列)中图像细节的退化。相反,SwinIR和DiffBIR在只有云层较薄时才能有效地消除云层。然而,与我们提出的方法所展示的实力相比,他们在云去除和图像细节细致入微的重建方面的熟练程度福尔斯不足。

C.基于扩散方法的比较

        定量比较。我们的方法再次与Spa-GAN、SwinIR和DiffBIR等方法形成对比。不同之处在于通过扩散细化优化Pixel-CR输出,这是一个旨在增加图像细节和改善视觉质量的过程。从这个意义上说,我们主张采用无参考指标作为评估所得图像视觉质量的一种手段。

        RICE1.表II列出了所有方法无参考指标的数值结果。结果表明,本文提出的扩散细化方法优于其他方法。Spa-GAN使用GAN方法,缺乏对生成过程的精确控制。而SwinIR,简单地使用Swin Transformer,在云去除和视觉质量上都不如我们的Pixel-CR。然而,与我们的IDF-CR相比,DiffBIR证明是次优的。DiffBIR通过完全依赖重建和生成网络进行改进。相反,对于INR,通过INR的战略整合来调节扩散的生成能力,从而改善视觉保真度和除云功效。

        表II列出了我们应用于RICE 2数据集的方法的定量无参考度量值。我们的方法在所有指标中表现最好,部分指标明显优于其他方法。这证明了拟议INR的有效性。由于RICE 2数据集相对于RICE 1的复杂性增加,因此与RICE 1相比,竞争方法的所有目视质量指标均显示RICE 2降低。值得注意的是,我们框架中的选定指标在更具挑战性的RICE 2数据集上的表现优于RICE 1,这突出了我们的方法处理更苛刻场景的能力。

表II在RICE数据集上训练的各种方法的定量参考指标比较。

        定性比较。我们呈现了细化结果的可视化表示,如图6所示。特别是,第二列和第五列揭示了IDF-CR和无云之间的可辨别的相似性,无论是在色彩保真度和结构一致性方面。相比之下,Pixel-CR方法的应用导致窗口阴影,这是由于其在Swin Transformer内使用窗口注意力。扩散的结合证明有助于有效地减轻Swin Transformer中的这些窗口阴影,从而产生舒适的视觉效果。由于扩散机制强大的生成能力,IDF-CR表现出更高的生成复杂纹理细节的能力。

见图6。潜在的空间定性分析的RICE 1和RICE 2数据集上的细化性能的方法。

D.WHUS2-CRV数据集上的薄云去除

        RICE是由RGB域组成的数据集。卫星图像还包括其他谱带,每一谱带都有不同的应用。特别是,所有哨兵-2波段在区分、分类和监测不同类型的植被以及探测干扰方面发挥着关键作用。为了证明我们方法的有效性,我们从WHUS 2-CRv数据集中提取所有波段进行训练和测试。

        定量比较。表III显示了所有Sentinel-2条带的比较结果。值得注意的是,图像重建方法始终优于替代的薄云去除方法。此外,我们的方法在PSNR和SSIM指标上都表现出最优性。

表III WHUS2—CRV数据集上培训方法的定量结果。

E.消融研究

        为了评估我们提出的像素潜伏两阶段网络架构和INR模块的有效性,系统地提取每个组件进行验证。在RICE 1和RICE 2数据集上进行消融实验。“w/”表示引入给定组分,而“w/o”表示排除给定组分。

        Pixel-CR。在这一部分中,我们将重点放在验证我们提出的两阶段模型的有效性。我们的方法涉及在像素空间中的IDF-CR内的云去除模块的提取。只有多云和无云对用于训练扩散模型。如表IV所示,无参考度量值在不存在Pixel-CR的情况下表现出降低。在图7中呈现的可视化结果强调,与"w/PixelCR"相比,"w/o Pixel—CR"的云去除和细节恢复都是不足的。这突出了Pixel—CR在两阶段模型中的关键作用,为云去除和细节恢复过程做出了重大贡献。它还强调,仅仅采用微调的扩散模型不足以有效地执行云去除任务

表IV像素空间除云卫星的烧蚀研究.

见图7。像素空间去云模块对RICE的影响。“w/o Pixel-CR”:我们的IDF-CR缺乏与Pixel-CR的集成(仅INR)。“w/Pixel-CR”:我们的云去除模型(IDF-CR)。“标签”:无云图像。

        迭代噪声细化。我们对INR模块进行了消融研究,结果如表V所示。由于INR操作完全发生在潜在空间中,因此其效果仅限于该空间,不会影响像素空间中的模型。为了确保公平的比较,我们在像素空间中统一使用相同的Pixel—CR。我们消融的对象是INR的数值。显然,表V揭示了在并入INR的情况下网络性能的改进。随着INR数值的增加,观察到模型性能出现明显的上升轨迹。这些结果的视觉表示如图8所示。随着迭代次数的增加,纹理细节表现出渐进的细化。我们提出的INR证明了恢复不同的细节和色彩保真度的能力,同时保持一个高标准的云去除效果。

表V迭代噪声精化模型的烧蚀研究。

见图8。在INR模块上进行的消融实验的可视化。变量K表示噪声的迭代次数。

        多云注意 我们扩展了云注意模块的意义。值得注意的是,云注意模块部署在像素空间中,需要限制在像素空间的聚焦消融分析。Pixel-CR中嵌入的云注意力模块被删除。由于云注意力模块的缺失,注意力的计算,LAttn损失的去除变得势在必行。然后在像素空间中使用相同的设置训练模型。列表定量结果见表VI。“w/ Cloudy Attention”表示同时整合Cloudy Attention模块和LAttn损失。与“w/ Cloudy Attention”相关的性能表现出明显优于“w/o Cloudy Attention”。这一观察结果表明,云注意力有效地引导模型确定云位置的精确位置,以胜任地识别和解决多云区域。

表六云注意力卫星的消融研究。

5 结论

        在本文中,我们提出了一个有效的遥感图像云去除扩散模型,简称IDF—CR。通过利用稳定扩散模型固有的强大生成能力,IDF—CR努力在图像云去除领域实现逼真的结果。然而,在图像中具有广泛,密集的云层覆盖的情况下,我们的方法在恢复这些大量的云层形成方面表现出低效率。在没有地面信息指导的情况下,这种低效率尤其明显,因为密集的云层往往掩盖了几乎所有可用的地面数据。为了克服这一局限性,我们将提出一个扩展,在未来的工作中纳入地面信息指导。

  • 18
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
【优质项目推荐】 1、项目代码均经过严格本地测试,运行OK,确保功能稳定后才上传平台。可放心下载并立即投入使用,若遇到任何使用问题,随时欢迎私信反馈与沟通,博主会第一时间回复。 2、项目适用于计算机相关专业(如计科、信息安全、数据科学、人工智能、通信、物联网、自动化、电子信息等)的在校学生、专业教师,或企业员工,小白入门等都适用。 3、该项目不仅具有很高的学习借鉴价值,对于初学者来说,也是入门进阶的绝佳选择;当然也可以直接用于 毕设、课设、期末大作业或项目初期立项演示等。 3、开放创新:如果您有一定基础,且热爱探索钻研,可以在此代码基础上二次开发,进行修改、扩展,创造出属于自己的独特应用。 欢迎下载使用优质资源!欢迎借鉴使用,并欢迎学习交流,共同探索编程的无穷魅力! 基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip 基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip 基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值