IDF-CR: Iterative Diffusion Process for Divide-and-Conquer Cloud Removal in Remote-sensing Images
Abstract
深度学习技术在去除光学遥感图像中的云层方面已经证明了其有效性。卷积神经网络(cnn)在云移除任务中占据主导地位。然而,受卷积运算固有局限性的约束,cnn只能处理一小部分云遮挡。近年来,扩散模型由于其强大的生成能力,在图像生成和重建方面已经达到了最先进的水平。受扩散模型快速发展的启发,我们首先提出了一种用于云移除的迭代扩散过程(IDF-CR),该过程表现出强大的生成能力来实现组件分而治之的云移除。IDF-CR由像素空间云去除模块(pixel - cr)和潜在空间迭代噪声扩散网络(IND)组成。具体来说,IDF-CR分为两个阶段模型,分别处理像素空间和潜在空间。两阶段模型有助于从初步的云减少到细致的细节细化的战略过渡。在像素空间阶段,PIxel-CR启动对多云图像的处理,在为扩散模型提供先验的云去除知识之前,产生次优的云去除。在潜在空间阶段,扩散模型将低质量的除云转化为高质量的干净输出。我们通过实现ControlNet来完善稳定扩散。此外,在扩散模型中引入了无监督迭代噪声细化(INR)模块,对预测噪声的分布进行优化,从而提高了高级细节恢复能力。我们的模型在其他SOTA方法(包括光学遥感数据集上的图像重建和光学遥感云去除)中表现最好。
1 Introduction
光学遥感图像是能够封装有关地表信息的视觉表示。对可见光和红外辐射都敏感的光学传感器采集光学遥感图像。这些视觉表现捕捉了表征地球表面的光谱属性,有助于提供地表特征的复杂细节,包括山脉、平原、湖泊、河流和各种地貌元素。因此,它们可以用于各种应用,包括地理信息系统、环境监测、土地利用规划、农业、林业、城市规划和自然灾害监测。然而,无处不在的大气云对光学遥感图像的部分遮挡构成了不可避免的挑战。困难在于,云作为气候条件的产物,对气候变化的反应非常复杂,预测其轨迹成为一项艰巨的任务。此外,国际卫星云气候学项目发现,全球年平均云量高达66%。因此,从光学遥感图像中去除云的努力正在成为提高这类图像效用的主要途径。
近年来,卷积神经网络CNN带来了范式的转变。利用其强大的非线性表达能力,成功克服了与各个领域的图像处理相关的许多挑战。例如,去雾、超分辨率、去云等任务。其中,DSen2-CR引入了一种有效的基于深度卷积网络的遥感图像重建网络。该方法主要利用残差网络来巧妙地捕获从有云到无云状态的映射。此外,生成对抗网络展示了其生成能力。通过一个生成器合成数据,然后使用鉴别器来判断数据的真假,从而提高了生成器的性能。Spa-GAN同时使用GAN和CNN从光学遥感图像中去云。提出通过估计空间注意力来帮助GAN生成无云图像。这些方法显著提高了遥感图像的去云能力。
然而,上述所有框架都有其固有的局限性。CNN固有的卷积运算只能捕获局部位置的信息,这使得CNN不太适合捕获远距离信息并与之交互。与Transformer相比,注意力机制的特点是能够捕获比卷积操作更大范围的特征信息。同时,Vision Transformer的设计扩大了图像的感知范围。GAN面临着生成器和鉴别器之间的相互作用的挑战,使得生成器和鉴别器的损失难以同时收敛,往往导致模型失效。值得注意的是,与连续向量相比,生成模型更容易理解离散向量的语义。
近年来,扩散模型成为继GAN之后的生成式模型研究的新热点。随后,许多工作试图提高扩散模型的效率。扩散模型在图像超分辨率、分割分类等多项任务中都取得了成功,并始终表现出最先进的性能SOTA。一个特别有效的变体是稳定扩散模型(Stable Diffusion Model),本质上是潜在扩散模型Latent Diffusion Model。LDM是一种利用冻结的向量量化变分自编码器(Vector Quantised Variational AutoEncoder,VQ-VAE)将图像从像素空间变换到潜在空间的算法,并通过在潜在空间中进行扩散和采样相位来实现。尽管扩散模型在各个领域都很有效,但在基于扩散的云移除网络领域仍然存在明显的缺失。鉴于此,本研究致力于利用扩散模型强大的生成能力来实现真实的去云。这一创新设计旨在利用扩散模型中强大的图像到图像映射能力,实现高质量的去云效果。
在本文中,我们提供了一个迭代扩散过程的鲁棒云去除网络,称为IDF-CR,专为光学遥感图像。IDF-CR受CDC的启发,采用组件式分治架构,包括像素空间云移除(Pixel - CR)模块和迭代扩散处理模块,如下:
- 为了增强去云的有效性,通过扩散模型获得更好的视觉效果,我们首先对像素空间的云状图像进行粗去云。利用Swin Transformer保持远距离信息交互和局部特征提取能力的特点,利用Swin Transformer作为像素空间的基本操作。同时,在Swin Transformer之后引入云注意力模块,提取云位置信息,供后续特征提取模块使用。
- 由于得到的像素空间表达式倾向于简单地去云,因此云占据的位置通常会产生畸变像素簇的残余小区域。这种现象导致视觉效果不理想。同时,由于基于GAN的方法在全局封装综合数据分布方面的局限性,这导致在云覆盖位置重建纹理细节时可视化效果欠佳。相反,扩散模型擅长于获得从随机概率分布到高分辨率图像的高质量映射。因此,我们提倡同时使用扩散模型进行细节恢复和云清除。通过VQ-VAE将低质量的去云输出从像素空间转换为潜在空间。得到的离散向量作为扩散模型的输入。同时,应用ControlNet保持扩散模型的生成能力。
- 引入基于扩散模型的迭代噪声细化(Iterative noise refinement,INR)模块来优化图像细节恢复的权重。这涉及到从UNet预测的噪声
构建一个更复杂的扩散离散向量
,它允许迭代噪声细化。
本文提出了一个组件分而治之的去云框架,并将所提出的方法与没有地面特征提示的SOTA图像去云网络Spa-GAN以及我们重新训练的图像重建网络DiffBIR和SwinIR进行了比较。这些综合比较表明,IDF-CR在单幅遥感图像去云领域提供了显著的性能飞跃。此外,为了验证我们提出模块的有效性,专门针对两阶段网络、模糊注意力和迭代噪声细化模块进行了消融实验。一组全面的度量结果,加上可视化分析,证明了IDF-CR不仅能够实现去云,而且还能改善可视化。本实验的主要贡献概述如下:
- 提出了IDF-CR,这是一个将扩散模型集成到去云领域的开创性网络。这种创新的架构利用了组件分而治之的去云和扩散模型的强大生成能力。
- 分别提出了模糊注意力机制和迭代噪声细化INR模块,用于像素空间的特征提取和潜在空间的细节恢复。与之前的图像重建网络不同,云注意力像网络提供了云的明确位置信息,允许Swin Transformer更有效地提取特征。迭代噪声细化INR模块旨在通过构建更复杂的潜在变量来提高扩散模型预测噪声的准确性和鲁棒性,最终得到视觉上吸引人的结果。
- 在RICE和WHUS2-CRv数据集上的大量实验结果证明了所提出方法的有效性。
2 相关工作
去云任务
图像去云是一种经典的底层图像处理任务,主要分为两类:传统方法和深度学习方法。传统方法以插值、小波变换和信息克隆为特征,代表了解决这一挑战的范式。Xu等人使用稀疏表示来方便地去除谱域中的薄云伪影。Liu的研究中精心设计了低通滤波器,选择性地提取云成分,实现去云。另一方面,Lin在检索地面信息的同时进行了去云的操作。同时,Hu等使用沙漏滤波器组结合双树复小波变换从遥感图像中提取不同尺度和方向的信息。Lorenzi等提出通过压缩感知增强遥感图像中的指定云区域。Xu等人通过光谱混合分析对云像元进行了矫正。Li等人使用多时相字典学习算法,该算法扩展了贝叶斯方法用于去云。然而,传统方法的有效性往往局限于特定的任务和数据集。面对新的复杂性,传统方法需要重新设计和定制。相反,CNN通常不需要这种大改。与传统方法相比,CNN表现出优越的泛化能力,使其在处理图像中像素之间的复杂关系方面优于传统方法。
Zhang等人是将CNN应用于遥感图像去云领域的先驱。它吸收不同的数据源并合并它们各自的特性以增强信息内容。而Enomoto等人采用cGAN利用多光谱数据,目的是提高可见光RGB卫星图像的清晰度。类似地,Zheng等人使用GAN和UNet来获取多云和无云条件下的映射。额外的循环一致性用于约束生成器预测,确保无云场景相应地与指定位置对齐。
合成孔径雷达(SAR)是一种利用雷达信号扫描地球表面的主动遥感技术。与其他光学遥感技术不同,SAR图像不受气象条件(如云量和降水)的影响,因此能够适应不同的环境。然而,SAR图像缺乏光谱信息。Bermudez等人使用GAN直接将SAR数据转换为RGB图像。这促成了随后的概念化,将SAR与同一空间位置内的光学遥感图像合并。他们采用残差网络、GAN和反卷积网络等框架将两个光学数据集连接起来,以指导图像重建。随后,GLF-CR提示SAR作为协调全局上下文相互作用的指南。SEN12MS-CR-TS在多光谱信息融合中加入了时间维度。不确定性在多光谱信息融合中的去云任务中引入了多元不确定性量化。
上述CNN和Transformer方法在遥感图像去云方面具有显著的进步。我们的目标是吸收这些方法的优点,同时集成更有效的扩散模型,以实现更高的去云精度和更精细的细节恢复。
扩散流程
虽然CNN和transformer目前主导着计算机视觉方法的前沿,但扩散模型已经成为一个强大的竞争者,在人工智能生成内容领域展示了显着的生成能力并取得了重大进展。作为一项开创性的工作,扩散概率模型(DDPM)包括两个主要过程:扩散和采样。扩散过程表现为马尔可夫链,逐渐向图像中引入噪声,直到损坏发生。采样过程根据现有噪声的分布预测前一扩散步骤的噪声,直到实现图像的完全恢复。然而,DDPM生成高质量的样本需要多次迭代。为此,DDIM通过构建非马尔可夫扩散机制加速了采样过程。DreamBooth对扩散模型进行了概念特定的微调,以降低训练成本。此外,ControlNet为预训练的扩散模型引入了多个辅助条件路径。稳定扩散Stable Diffusion将扩散和采样投影到潜在空间,保证了扩散过程的稳定。
扩散模型适用于各种视觉任务,包括文本到图像、视频生成、图像编辑和图像修复。然而,我们仍然不了解在遥感图像中使用扩散模型去云的任何情况。受这些杰出工作的启发,我们利用稳定扩散模型Stable Diffusion促进深度云去除和纹理细节重建,为由 SwinTransformer组成的像素空间云去除模型框架。我们提出的IDF-CR代表了用于遥感云去除任务的开创性扩散模型,该模型解决了CNN和Transformer的局限性,并提高了重建细节的保真度。
3 方法
图1 提出的分而治之去云框架的训练和推理管道。包括两个阶段:(像素空间):预训练一个基于Transformer的去云模块Pixel-CR来执行像素空间中云的粗去除。为潜在空间中的扩散模型提供了去云的先验知识。(潜在空间):首先利用 VQ-VAE
编码器实现像素空间到潜在空间的转换。然后,基于CodeBook中的最近距离搜索对连续变量进行离散化。无云标签和粗去云信息分别记为
和条件变量
。我们提出的迭代噪声扩散IND模块由ControlNet和迭代噪声细化INR组成,实现了高质量的去云输出
。ControlNet是一个可训练的并行模块,其任务是获取与
和真实向量
相关的数据分布的知识。迭代噪声细化INR产生复杂的噪声模式以提高噪声精度和增强模型的鲁棒性。最后,由VQ-VAE解码器D将
投影回像素空间。在推理过程中,噪声
从正态分布
中随机抽取,大写Z和小写z分别表示推理阶段和训练阶段。
如图1所示。IDF-CR包括两个阶段。第一阶段是像素空间云去除阶段(Pixel - CR)。Pixel-CR模块基本上集成了 Swin Transformer 和模糊注意力组件。与CNN相比,Swin Transformer提供了更好的像素重建能力。多云注意力作为辅助的去云模块,为云的空间定位提供指导。第二阶段为潜在空间深度优化阶段。我们提出了一个迭代噪声扩散(Iterative Noise Diffusion,IND)模型进行细化。迭代噪声扩散IND包括控制网和迭代噪声细化(Iterative Noise Refinement,INR)。ControlNet巧妙地调节了扩散模型的生成能力,而迭代噪声细化INR则是我们在这个框架中的创新提议。通过不断更新扩散模型的输入和输出,迭代噪声扩散IND提高了预测噪声的准确性。与像素空间相比,潜在空间内的模拟数据表现出更大程度的紧凑性。因此,在潜在空间内执行生成和去噪任务更加直接,有利于生成高质量的无云输出。
3.1 像素空间相位Pixel Space Phase
图2 像素去云模块Pixel-CR的图形表示。
Pixel-CR模块在像素空间中运行。包括三个模块:
- 浅层特征提取Shallow Feature Extraction
- 去云模块Cloud Removal
- 多云图像重建 Cloudy Image Reconstruction
给定一幅多云图像,其中 H 和 W 分别表示图像的高度和宽度,C 表示通道数。随后,
通过浅层特征提取模块进行初始处理,获取浅层特征:
式中表示浅层特征,
表示浅层特征提取模块。
模块包括一个卷积层。
随后,使用表示的去云模块来移除
里的云。
在图2的灰色区域中体现。
由N个子模块组成,具体记为
、
、…
。每个子模块,
,由Swin Transformer和云注意力的组合组成。子模块通过Swin Transformer提取深度特征来启动该过程。云注意力是一种基于卷积的空间注意模块,用于识别和提取深层特征中的注意。该注意分量描述了特征内云的空间分布,从而为网络提供有效的云去除指导。通过逐元素乘法将注意力纳入深度特征,然后将结果输出添加到Swin Transformer深度特征中。该操作可以简洁地表示为:
式中,表示多云注意力输出,
表示多云注意力模块,
表示Swin Transformer。
对应
提取的特征。当 i=N 时,将最终子模块记为
, 则在
中引入一个卷积层,记为:
其中由卷积层表示。在去云子模块的末尾加入一个新的卷积层会引入一个偏差。为卷积层构造的重建模块铺平了道路。
最后,通过整合两个卷积层,构建了重构模块。其公式简明地表示为:
式中,表示重构模块,
表示低质量的去云输出。
可视化的细化将通过潜在空间中的扩散模型来实现。
Pixel-CR中的损失函数
像素空间的损失分为两个主要部分。第一部分对应的去云的损失,第二部分对应的是与注意力相关的损失。
我们直接使用L1损失计算去云损失:
其中表示与
位于同一位置且间隔少于15天的无云图像。
注意力损失的目标由去云注意力模块和M的输出来定义,其中M表示和
之间的差值的二值化映射。注意力损失的计算通过L2损失完成:
Pixel-CR模块在像素空间中的总损失可表示为:
3.2 迭代噪声扩散Iterative Noise Diffusion
扩散模型
为了生成高质量的去云输出,采用了稳定扩散模型Stable Diffusion Model(Latent Diffusion Model,LDM)。 如图1所示,在扩散过程之前完成了从像素空间到潜在空间的过度。给定次优的去云输出和像素空间中的无云标签
,使用预训练的VQ-VAE的编码器
将
和
转换到潜在空间。这些变换分别表示为
和
。此外,我们还使得从连续变量到离散变量的转换在潜在空间中得以实现。我们建立一个潜在嵌入空间,记为
,其中 B 表示潜在嵌入空间的大小,D表示潜在变量的维度。如式(9)所示,通过
的最近距离查找找到潜在离散变量:
其中。
和
分别表示潜在空间中离散向量和连续向量的表示。
如图1(潜在空间阶段)所示,离散潜在变量随后被扩散过程破坏。同样,
表示扩散时间步长0的变量。在每一个时刻,z 引入噪声。当前时刻的噪声来源于前一时刻,公式为
,其中
表示权重系数,而
是符合高斯分布
的噪声。
可以通过递归从
推导出来。因此,任意时刻的
可以由
计算得到:
其中是
到
的阶乘。
在采样过程中,从时刻t的可用信息中得到时刻 t-1 的图像,记为。应用贝叶斯公式可知,
服从高斯分布。然后,平均值
和方差
分别表示为
和
,其中
表示时刻 t 符合高斯分布的未知噪声。
通过UNet
预测。因此,可以在时刻 t 随机产生标准高斯噪声
,使得
被反向推理回
。最后使用预训练的VQ-VAE解码器将
映射回像素空间。
在训练过程中,根据式(10)将原始潜在向量扩散到
,并推导出时刻 t 的真实噪声
。UNet θ的输入包括
和条件 c ,产生预测噪声
。稳定扩散模型LDM的损失函数可表示为:
其中 t 为从[0, T]随机抽样的时刻, 稳定扩散模型LDM的条件 c 为空。为权重
的UNet的噪声输出,输入为
,c,t。
ControlNet
我们使用ControlNet来避免在训练过程中面对小数据集时的过拟合,并确保从大数据集获得的优质图像重建的保真度。与对稳定扩散模型LDM的排他性依赖相反,ControlNet创建了一个副本,该副本将预训练的UNet的编码器和中间块复制为并行模块。然后,并行模块的输出根据其相应的尺寸无缝地发送到UNet解码器。具体来说,冻结UNet被配置为保持从大量数据中获得的数据映射的保真度。同时,并行模块提供了一种端到端机制,用于捕获特定于任务的条件输入。在这方面,我们使用concat [,
]作为ControlNet的条件输入, [
,
]为ControlNet提供无云和低质量云去除数据的数据分布信息。
在采样过程中,产生一个符合标准正态分布的随机生成变量作为时刻 T 的噪声。
是由像素空间中的低质量输出变换而来的潜在离散向量。T−1时刻的噪声可以由UNet和并行模块共同预测。并行模块为UNet提供了
的特征,从而将与
相关的信息合并到时刻T−1的噪声中。然后,利用DDPM算法,通过采样迭代得到
。
在训练过程中,只更新并行模块的权值,而UNet的权值是固定的。训练损失描述如下:
迭代噪声细化Iterative Noise Refinement
在扩散模型的训练过程中,给定一个潜在变量和一个真实噪声
,按照式(10)生成噪声
。扩散模型要求UNet学习映射
。然而,采样利用生成的噪声和真实噪声对进行模型训练,表示为{
,
},容易受到较差的泛化和次优鲁棒性相关的挑战。我们希望在保持噪声分布完整性的同时增加训练数据的多样性。我们的目的是从现有数据生成新的迭代。
基于上述动机,我们提出了一种迭代噪声细化(INR)方法。如图3所示,INR巧妙地减少了数据集中的偏差,从而在预测真实噪声方面取得了更好的性能。具体来说,如图3 (b)所示,给定一个潜在向量和一个真实噪声
,我们创建一个生成噪声和真实噪声对。即{
,
},其中f(·)表示扩散过程。然后使用{
,
}对更新UNet的初始权重
,基于前一批数据更新:
其中←表示梯度更新。我们推导出对应于迭代的输出
。由于扩散模型损失的设计,
的分布很明显与
的分布非常相似。我们表示
为
。
接近于,但不等同于,并且可以被解释为
与一些不明确的退化(Unspecified degeneracy)结合的结果。我们可以利用
来预测真实噪声
。为此,我们的策略包括构建一种新的合成噪声和真实噪声对:
简而言之,INR直接用 代替
作为新的数据集。新创建的训练数据对{
}和原始训练数据对{
}共享相同的
和
。新的训练数据对的分布呈现出增加的复杂性。这提高了UNet泛化和鲁棒性的精细化。此外,前一时刻的梯度更新减小了真实噪声与预测噪声之间的差异,有利于提高模型输出的精度。因此,可以使用新的训练数据对和更新的梯度对UNet进行训练:
用预测噪声更稳健,因为
处理的噪声比
更复杂。此外,根据损失函数的目标,这相当于不断优化中间输出并逐步改进预测噪声。然后,在
和
保持不变的情况下,我们可以不间断地迭代更新θ K次。为了详细说明,在K次迭代的权重更新期间,
应取代
:
经过 K 次迭代后,用于训练下一个batch的{
}和
。
4 实验
4.1 实现细节
数据集
我们使用RICE作为训练和测试数据集。RICE分为RICE1和RICE2,分别对应两个Pixel-CR模型和两个扩散模型。RICE1由500个RGB对组成,展示了云的存在和不存在的图像。每张图像的尺寸为512 × 512,由谷歌地球上的数据收集获得。图像之间的间隔限制在15天以内。RICE2包含736个三元组,每个三元组由{云雾、无云、云掩膜}组成。在我们的实验中,只考虑了代表多云和无云条件的RGB对。这些图像的大小为512 × 512,来自Landsat 8 OLI/TIRS数据集。在RICE1中,400张图像被分配给训练集,剩下的100张图像组成测试集。对于RICE2, 588张图片被指定为训练集,148张图片被指定为测试集。
WHUS2-CRv数据集代表了Sentinel-2所有波段薄云去除数据的综合集合。WHUS2-CRv包括24450对哨兵2号全波段卫星图像,有云和无云。其中,18816对用于训练,1888对用于验证,其余3746对用于测试。为避免反射率变化,云和无云影像的时间间隔为10天。WHUS2-CRv覆盖了整个地球和所有季节。空间分辨率为10m、20m和60m的波段分别对应384×384、192×192和64×64。
实现
我们的模型分为两个不同的步骤进行训练。首先,使用RICE1和RICE2对Pixel-CR进行单独训练。Pixel-CR的输入由512 × 512尺寸的云状RGB图像组成。标签由无云RGB图像组成,输出形状与输入形状相同。云关注矩阵M包含有云和无云之间的差异,其大小限制在[0,1]范围内。批大小、epoch和学习率参数分别设置为1、200和4 × 10−4。中间和嵌入层通道都设置为96。该架构包括3个Swin Transformer,窗口大小设置为16。
然后使用扩散进行进一步细化。同样,RICE1和RICE2用于单独训练。扩散的输入是像素空间的去云输出,记为,来自Pixel-CR。参考对象是无云RGB图像。图像的尺寸和格式与Pixel-CR保持一致。对于像素和潜在空间的转换,使用VQ-VAE预训练的编码器和解码器组件。批量大小、epoch和学习率分别配置为2、100和1 × 10−4。在推理过程中,使用DDPM采样器采样50步,生成高质量的云去除输出。细化迭代的次数设置为K = 3。
当使用WHUS2-CRv数据集进行训练时,我们将输入和输出维度统一为384×384、192×192和64 × 64,同时保持其余参数不变。
评价指标
建立了两套评价指标,区分有参考和无参考的评价指标。这些对应于对无云图像的像素空间和潜在空间的评估。当考虑参考时,与无云图像进行比较。这种方法使使用所提供的度量来演示云移除和图像重建功能变得容易。
参考评价指标包括PSNR、SSIM、LPIPS和RMSE,用于图像综合评价。PSNR通过评估原始图像和处理图像之间的峰值信噪比来量化图像质量。结构相似性指数SSIM (Structural Similarity Index)是对原始图像和处理后图像在结构上的相似度进行度量,综合考虑亮度、对比度、结构等属性,对图像质量进行综合评价。LPIPS(学习感知图像补丁相似度)是一种用于评估图像之间感知相似性的度量。通过更准确地捕获人类对图像相似性的感知判断,它优于传统的像素度量,如均方误差(MSE)或PSNR。此外,RMSE是统计学、数据分析和机器学习中广泛使用的度量标准,用于衡量预测模型的准确性。
在我们的评估中使用的无参考指标包括NIQE(自然图像质量评估器),MANIQA(无参考图像质量评估的多维关注网络),BRISQUE和PI(感知指数)。这些指标不依赖于参考图像,提供了对图像真实感和质量的增强评估。特别是NIQE,显示出与人类对图像质量的感知高度相关。MANIQA是2022年无参考指标的冠军算法。BRISQUE使用自然场景统计来预测图像质量,而PI在各种失真情况下对图像质量的评价是有效的。
4.2 像素空间方法的比较
定量比较
在像素空间中,我们将我们的方法与其他SOTA方法进行对比。其中,SpaGAN、C2PNet、RIDCP和SGID-PFF代表了没有SAR数据参考的去云模型。SwinIR和DiffBIR代表我们重新训练的图像重建模型。在WHUS2-CRv数据集上训练时,我们考虑了Sentinel-2全波段方法,如RSC-Net、FCTF-Net、ReDehazeNet和CR4S2作为基线。同时,Pixel - CR作为我们为像素空间云去除而设计的模型应运而生。
RICE1
表1 在RICE数据集上训练的各种方法的定量无参考指标比较。
RICE1主要由薄云组成。它们的去除难度相对较小,因此与RICE2相比,其指数值更好。与Spa-GAN云移除模型相比,Pixel-CR在所有指标上都表现出色,尽管其PSNR可能超过31。通过这些指标来衡量,Pixel-CR的性能明显超过了之前的作品。用RICE1对SwinIR和DiffBIR进行再训练。SwinIR和DiffBIR的配置保持不变,并在超参数中保持一致性。为了公平竞争,排除了SwinIR和DiffBIR中的退化模型。表1清楚地表明,在RICE1数据集上,我们的Pixel-CR实现了总体参考指标的最优性。
RICE2
RICE2数据集包含大量密集的云覆盖图像。从如此庞大的云层中恢复无云图像是一项艰巨的挑战。因此,相关指标的值预计将呈现递减。我们提出的方法在有效性上优于现有的方法。PSNR和SSIM值分别大于30和0.9。这证明了我们的方法在像素空间中具有强大的云去除能力。
定性比较
图4 像素空间定性分析提出的方法和现有方法:C2PNet、RIDCP、SGID-PFF、Spa-GAN、SwinIR、DiffBIR在不同自然环境下对RICE1数据集的薄云去除性能。
图5 不同云覆盖在RICE2数据集上去云结果的像素空间定性比较。
我们选择了一组像素空间的视觉范例。图4和图5分别为对应于RICE1和RICE2数据集的可视化表示。对每种方法进行了比较分析。
RICE1
为了可视化,我们选择来自三个不同区域的样本进行可视化,分别包括山区和平原。SpaGAN的输出图像亮度过高,有明显的条纹伪影。C2PNet、RIDCP和SGID-PFF在以准确的色彩保真度有效恢复纹理方面存在局限性。SwinIR和DiffBIR的云缓解功能虽然尚可,但其特点是有模糊的倾向。相比之下,我们的方法不仅实现了全面的云去除,而且在细节恢复的细致优化方面表现出色。
RICE2
我们选择了三个可视化样本,每个样本都有不同程度的云覆盖。评估了该网络在减轻密云形成影响方面的有效性。C2PNet、RIDCP和SGID-PFF无法有效消除小尺度区域的密集云层。值得注意的是,Spa-GAN受到大量云层覆盖的影响,表现在图5(列4)中图像细节的退化。相反,当云层较薄时,SwinIR和DiffBIR都能有效地消除云层。然而,与我们提出的方法所展示的实力相比,它们在云去除和图像细节细致重建方面的熟练程度不足。
4.3 基于扩散方法的比较
定量比较
再一次,我们的方法与Spa-GAN, SwinIR和DiffBIR等方法形成对比。区别在于通过扩散细化对Pixel-CR输出进行优化,扩散细化旨在增加图像细节和提高视觉质量。从这个意义上说,我们提倡使用无参考指标作为评估所得图像视觉质量的手段。
表2 在RICE数据集上训练的各种方法的定量参考指标比较。
RICE1
表2列出了所有方法的非参考指标的数值结果。结果表明,本文提出的扩散细化方法优于其他方法。Spa-GAN使用GAN方法,缺乏对生成过程的精确控制。而仅仅使用Swin Transformer的SwinIR,在去云和视觉质量方面都不如我们的Pixel-CR。然而,与我们的IDF-CR相比,DiffBIR被证明是次优的。DiffBIR通过完全依赖重建和生成网络来改进。相反,对于迭代噪声细化INR来说,通过对迭代噪声细化INR的战略性整合来调节扩散的生成能力,视觉保真度和去云效果的改善得到了体现。
RICE2
表2列出了我们的方法应用于RICE2数据集的定量无参考指标值。我们的方法在所有指标中表现最好,部分指标明显优于其他方法。这证明了迭代噪声细化INR的有效性。由于RICE2数据集相对于RICE1的复杂性增加,所有评价方法的视觉质量指标在RICE2上都比RICE1下降。值得注意的是,我们框架中选择的指标在更具挑战性的RICE2数据集上优于它们的RICE1对应物,强调了我们的方法处理更苛刻场景的能力。
定性比较
图6 对提出的方法在RICE1和RICE2数据集上的细化性能进行了潜在空间定性分析。
我们给出了细化结果的可视化表示,如图6所示。特别是,第二和第五列显示了IDF-CR和无云之间的可辨别的相似性,无论是在色度保真度和结构相干性方面。相比之下,Pixel-CR方法的应用会产生窗口阴影,因为它在Swin Transformer中使用了窗口注意力。扩散的结合被证明有助于有效地减轻Swin Transformer中的窗影,从而产生舒适的视觉效果。由于扩散机制的强大生成能力,IDF-CR显示出产生复杂纹理细节的能力增强。
4.4 WHUS2-CRv数据集上的薄云去除
RICE是一个由RGB域组成的数据集。卫星图像包括其他光谱波段,每个波段都有不同的应用。特别是,所有Sentinel-2波段在区分、分类和监测不同类型植被以及检测干扰方面发挥了关键作用。为了证明我们方法的有效性,我们从WHUS2-CRv数据集中提取所有波段进行训练和测试。
定量比较
表3 WHUS2-CRv数据集上训练方法的定量结果。
表3显示了所有Sentinel-2波段的比较结果。值得注意的是,图像重建方法始终优于其他薄云去除方法。此外,我们的方法证明了PSNR和SSIM指标的最优性。
4.5 消融实验
为了评估我们提出的像素潜在两阶段网络架构和迭代噪声细化INR模块的有效性,系统地提取每个组件进行验证。在RICE1和RICE2数据集上进行了消融实验。“w/”表示包含给定组件,“w/o”表示不包含给定组件。
Pixel-CR
表4 像素空间去云模块的消融实验。
图7 像素空间去云模块对RICE的影响。‘ w/o Pixel-CR ’:我们的IDF-CR缺乏与Pixel-CR的集成(只有INR)。“w/ Pixel-CR”:我们的云移除模型(IDF-CR)。“标签”:无云图像。
在这一部分中,我们的重点是验证我们提出的两阶段模型的有效性。我们的方法涉及在像素空间中提取IDF-CR内的云去除模块。只使用多云和无云对来训练扩散模型。如表4所示,在没有Pixel-CR的情况下,无参考指标值显示出下降。如图7所示的可视化结果强调,与“w/ Pixel-CR”相比,“w/o Pixel-CR”的云去除和细节恢复都有所不足。这突出了Pixel-CR在两阶段模型中的关键作用,对云移除和细节恢复过程做出了重大贡献。它还强调,仅仅采用微调扩散模型不足以有效地执行云清除任务。
迭代噪声细化INR
表5 迭代噪声细化模块INR的消融实验。
图8 在INR模块上进行的消融实验的可视化。变量K表示噪声的迭代次数。
我们对INR模块进行了消融研究,结果见表5。由于迭代噪声细化INR操作完全发生在潜在空间中,因此其影响仅限于潜在空间,不会影响像素空间中的模型。为了确保公平的比较,我们在像素空间中统一使用相同的Pixel -CR。我们要消融的对象是INR模块。显然,表5揭示了引入INR后网络性能的改善。随着INR数量的增加,可以观察到模型性能的明显上升轨迹。这些结果的可视化表示如图8所示。随着迭代次数的增加,纹理细节呈现出逐步细化的趋势。我们提出的INR显示了恢复不同细节和色彩保真度的能力,同时保持高标准的云去除效果。
多云注意力Cloudy Attention
我们扩展了多云注意模块的意义。值得注意的是,云注意力模块部署在像素空间中,因此需要对像素空间进行聚焦消融分析。Pixel-CR中嵌入的多云注意力模块被移除。由于缺少了多云注意力模块,注意力计算、注意力损失的移除就变得势在必行。然后在具有相同设置的像素空间中训练模型。表六列出了量化结果的表格。“w/ Cloudy Attention”表示同时整合了Cloudy Attention模块和
loss。与“w/ Cloudy Attention”相关的表现比“w/o Cloudy Attention”表现出显著的优势。这一观察说明,云注意力有效地指导模型确定云位置的精确位置,以胜任识别和处理多云区域。
5 结论
在本文中,我们提出了一种用于遥感图像云去除的有效扩散模型,称为IDF-CR。通过利用稳定扩散模型固有的鲁棒生成能力,IDF-CR努力在图像云去除领域实现现实的结果。
然而,在图像中具有广泛,密集云覆盖的场景中,我们的方法在恢复这些大量云形成方面表现出低效率。这种低效率在缺乏地面信息引导的情况下尤为明显,因为浓密的云层往往会掩盖几乎所有可用的地面数据。为了克服这一限制,我们将提出在今后的工作中纳入地面信息指导的扩展方案。