[CR]厚云填补_条件扩散模型用于SAR到光学图像转换

Conditional Diffusion for SAR to Optical Image Translation


Abstract

        合成孔径雷达(SAR)提供全天候、全天高分辨率成像,但其独特的成像机制往往需要专家解释,限制了其广泛的适用性。为了应对这一挑战,提出了一个生成模型,该模型连接了SAR和光学成像,促进了SAR图像转换为更容易被人类识别的光学航空图像。这有助于解释SAR数据,使其更容易识别。具体来说,我们的模型主干是基于最新的扩散模型,具有强大的生成能力。我们创新地定制了扩散模型框架,将SAR图像作为采样过程中的条件约束。这种自适应使得从SAR到光学图像的有效转换成为可能。我们在卫星GF3和SEN12数据集上进行实验,并使用结构相似性(SSIM)和Fréchet Inception Distance(FID)进行定量评价。结果表明,该模型不仅在定量评价方面超越了以往的方法,而且显著提高了生成图像的视觉质量。这一进展强调了该模型在增强SAR图像解释方面的潜力。 

1  Introduction 

        合成孔径雷达(SAR)是一项复杂的遥感技术,它将雷达原理与合成孔径方法相结合,以实现高分辨率成像。SAR是近年来发展迅速的一项前沿空间遥感技术,多极化、多基线、多频率、多角度、多通道等新型SAR系统和模式不断涌现,极大地提高了SAR图像质量。同时,在SAR图像处理和分析方法方面也取得了实质性进展。基于深度学习的SAR图像分类、分割、目标检测等技术不断创新和完善,扩大了SAR图像分析和应用的范围。此外,SAR具有全天候、全天候、穿透云雾等优点。这些特性使SAR成为各种领域的宝贵工具,包括气候变化研究和环境系统监测。 

        尽管有上述优势,由于SAR图像中的散斑噪声、几何畸变和辐射校正,SAR图像解译仍然具有挑战性,这些只能由训练有素的人员或领域专家进行解译。光学图像是另一种基于可见光或近红外波段的遥感图像,可以直观地反映地物的光谱和空间信息,易于人眼识别。然而,它容易受到云层覆盖和大气散射的影响,导致信息丢失或模糊。因此,引入一种将SAR图像转换成光学图像的方法来辅助SAR图像解译,可以降低理解SAR图像的难度,扩大SAR图像的应用范围。 

        SAR-to-optical图像转换是将SAR图像转换为相应的光学图像,可以提高SAR图像的可解释性和可用性。该任务是一种特殊的图像到图像(Image2Image)转换,涉及跨模态和跨域图像转换问题。传统方法依赖于机器学习和图像处理技术,需要对地物进行分类,构建分类转换知识库,并应用特征提取算法实现特征转换,获得各种物体之间的映射关系。这种方法成本高,依赖知识,难以应用于复杂多变的地面场景和细节。相比之下,深度学习的最新发展,特别是随着生成对抗网络(GAN)的出现,为SAR到光学图像转换带来了新的可能性。深度学习可以利用神经网络自动学习图像的高级语义特征,无需人工设计即可完成端到端的非线性映射。Fu等开发了一种基于GAN的SAR图像转换成光学图像的方法,利用多尺度鉴别器提高合成图像质量。然而,这种方法存在边界模糊和无法捕捉某些物体(尤其是建筑物)的几何特征的问题。此外,GAN还会遇到模式崩溃的问题,使其难以训练。 

        扩散模型最近成为一种主流的生成建模方法,在图像合成方面优于当前基于gan的生成模型。扩散模型由马尔可夫链参数化,马尔可夫链逐渐向数据中加入噪声,直到原始分布被破坏。在生成过程中,从随机高斯噪声开始,迭代去噪,生成干净的图像。扩散模型通过优化负对数似然的变分下界来训练,避免了GAN中经常发生的模式崩溃。 扩散模型已用于各种Image2Image转换任务,如超分辨率。受扩散模型卓越性能的启发,本文提出了一种基于扩散模型的SAR图像到光学图像的转换方法,该方法可以将SAR图像生成高质量的光学图像。我们利用其强大的架构,将SAR图像作为条件纳入模型的训练和推理过程,使模型能够从SAR图像中提取有用信息并将其转换为光学图像。 

        总之,本研究的主要贡献有以下两点:

  • 提出了一种新的条件扩散模型,用于SAR到光学图像的转换。该方法可以使目标信息有效保留在光学图像中,边界更清晰,并且比之前的方法更有效地解释SAR图像。 
  • 我们在GF-3和SEN12数据集上进行了实验,以直观地展示我们模型的转换性能。此外,我们将我们的模型与GF-3数据集上基于GAN的模型进行了比较,以证明我们的方法在定量和定性评估方面的优势。

2  相关工作 

2.1  扩散模型 

        扩散模型是最近提出的先进的生成模型,在许多计算机视觉任务中优于GAN。它们可以从噪声中生成高质量的图像。近年来,扩散模型作为一种强大的生成模型得到了迅速发展。它们在无条件图像生成方面表现良好,并且在各种条件生成任务上取得了重大进展。Dhariwal和Nichol改进了模型结构,提出了一种分类器引导的方法,可以使用预训练的分类器提供梯度作为生成目标类图像的指导。Choi等人提出了迭代潜变量细化(ILVR),该方法可以在生成过程中迭代地注入条件,在每个采样步骤无需额外训练的情况下,使用带噪声的参考图像对中间潜图像进行细化。与GAN相比,扩散模型具有多样性、训练稳定性和可扩展性等优点。本文提出的方法以SAR图像为条件指导生成过程。利用扩散模型卓越的图像生成能力,生成高质量的光学图像,实现了从SAR到光学图像的转换。

2.2  Image2Image的转换 

        I2I翻译的目的是生成与给定输入图像相关的输出图像,如将卫星图像转换为地图。该任务在计算机视觉中有广泛的应用,如风格迁移和超分辨率。最近,深度学习方法,特别是GAN,在这一领域取得了重大进展。基于GAN的通过对抗性训练有效地生成逼真的图像。如Zhu等人提出CycleGAN进行非配对I2I转换,改变图像中目标的属性。此外,Yang等人引入了ICGAN,采用融合低级和高级信息的并行特征发生器来提高光学图像轮廓的清晰度。在此基础上,他们随后的FG-GAN使用循环一致性损失推进了无监督图像翻译。FG-GAN采用非平衡结构生成器和多尺度高判别判别器,提高了模型的平移质量。还研究了I2I翻译任务的扩散模型,如UNIT-denoising扩散概率模型(DDPM)。我们认为SAR到光学图像的转换本质上是一个I2I任务。因此,受扩散模型的最新研究成果和优点的启发,我们提出了一种基于SAR图像引导的扩散框架的条件生成模型。 

3  方法 

        设计了一个基于扩散模型的生成式模型,可以在SAR图像作为条件下生成相应的光学图像。 

3.1  序论 

        大多数扩散模型都是基于DDPM框架构建的。DDPM由正向扩散过程和反向生成过程组成。如图1所示,这两个过程都被建模为马尔科夫链。 

        图1  概述原扩散过程,本质上是马尔可夫过程。前向扩散过程是指在原始数据中逐渐加入高斯噪声,直至其成为随机噪声。反向扩散过程是从随机噪声开始,逐步去除噪声,直至恢复原始数据。

        在正向扩散过程中,根据固定的方差调度\begin{Bmatrix} \beta _{1}, &\beta _{2}, &... &,\beta _{T} \end{Bmatrix},在T个扩散时间步长中逐渐加入高斯噪声λ,将原始图像x0转换为x_{T} \sim N(0,1)

\alpha _{t}=1-\beta _{t}\bar{\alpha} _{t}=\prod_{t=1}^{T}\alpha _{i},且x_{t}可以在任意时间步长T上采样: 

        在反向生成过程q(x_{t-1}\mid x_{t})中,逐渐去除噪声,重构原始数据。由于直接对后向扩散建模比较困难,DDPM学习参数化高斯变换p_{\theta }(x_{t-1}\mid x_{t})。本质上,DDPM预测高斯分布\mu _{\theta }(x_{t},t)的均值,逆向过程定义如下:

注意,在普通的DDPM中,方差\sigma _{t}是一个固定的超参数。 

        对于损失函数,Ho等提出了简化版本: 

其中\epsilon _{\theta }(x_{t},t)为模型预测均值参数化的高斯噪声。 

3.2  SAR引导的条件扩散 

        图2  SAR图像引导合成方案。给定一幅噪声图像x_{t}和相应的SAR图像c_{sar},在通道维数上串接,我们的方法将在SAR图像引导的方向上预测噪声,然后减去噪声,得到相应的光学图像。

        考虑到扩散模型在I2I转换任务中的优异表现,并针对GAN模型训练困难的问题,提出了一种基于扩散模型的SAR图像转换成相应光学图像的方法。本文提出的以SAR图像为条件的指导生成方法如图2所示,其基本架构为用于预测噪声的U-net网络。该方法基于具有T步扩散的原始DDPM模型。我们的关键思想是利用SAR图像来指导模型的推理过程。具体来说,对于正向扩散过程,我们使用干净的光学图像x_{0}作为输入,加入高斯噪声将其转换为x_{t},并将其与相应的SAR图像c_{sar}连接作为模型的输入。我们的模型被训练来预测在SAR图像条件下的每个扩散步骤中添加的噪声。后向生成过程从高斯噪声图像x_{T}开始,根据SAR图像逐步去噪,将其转化为清晰的相应光学图像。需要注意的是,每个扩散步骤的SAR图像条件都是无噪声的,这样做是为了使模型更加精确和一致。修改后的条件生成表示为:

训练损失函数与原始DDPM一致,所有概念遵循相同定义,SAR图像c_{sar}为条件: 

我们的训练和推理过程分别是算法1和算法2。 

4  实验 

4.1  数据集和指标

        我们使用GF-3数据集。其中,SAR数据主要来自中国GF-3空间SAR,分辨率为0.51 m。GF-3是中国首颗C波段多极化SAR卫星。该数据集覆盖城市/郊区,主要包含建筑物、道路和植被等地形表面。光学数据根据地理坐标从Google Maps下载,与相应的SAR图像相差不超过一个月。我们对图像对进行精确配准,并选择目标变化最小的场景,以确保SAR图像与光学图像之间的对应。

        我们首先将原始SAR图像的像素值归一化为[−1,1],之前没有进行其他特殊处理。我们首先确定合适的阈值,在不改变对比度的情况下对SAR图像进行归一化。归一化过程定义如下: 

式中x和\tilde{x}分别表示归一化前后SAR图像的像素值。\bar{x}是图像x的均值。然后我们将它们裁剪为256 × 256分辨率的大小。经过以上步骤,我们得到12850对样本。 

        此外,我们还在SEN12数据集上测试了我们的模型,以证明其性能。SEN12数据集由Sentinel-1和Sentinel-2分别获取的282384对SAR和光学图像组成。这些图像块是从地球陆地和季节的各个地点收集的,并经过人工评估,以去除配准不良的图像对。 

        为了定量评价,我们使用结构相似度(SSIM)[23]和 Fréchet inception distance (FID)来衡量生成的光学图像的质量。SSIM是比较两个图像中像素强度的局部模式并反映其SSIM的度量。SSIM测量图像相似性并评估亮度、对比度和结构方面。SSIM值越大,表示两个映像越相似。FID是一种度量,它计算由预训练的初始网络提取的两个特征分布之间的距离,并反映它们的感知相似性。 

4.2  实现细节

        在这项工作中,我们设置T = 2000。采用AdamW优化器进行\theta _{1}=0.9\theta _{2}=0.999的模型训练,伴随着热身和权值衰减。在最初的1000次迭代中,学习率从0到1e-4线性升温,然后在剩余的训练步骤中进行余弦衰减。我们在4 × 24 G NVIDIA 3090图形处理单元(GPU)上训练模型50000次,一批24次。 

4.3  实验结果 

        我们首先在GF-3和SEN12数据集上测试我们的模型。由于训练资源的限制,我们还没有在大规模场景上训练和测试我们的模型。图3是不同模型与我们方法的可视化对比,图4是我们模型的转换结果。如图4所示,转换结果表明,该模型能够准确恢复边界相对清晰的植被、道路等地物。对于稍微复杂一点的场景,比如建筑物,该模型成功地捕获了它们的轮廓,尽管有一些细节的损失,但它足以将它们与其他地面目标区分开来。此外,如图4所示,我们的模型熟练地重建了光学图像,证明了它在该领域的有效性。从人的视觉角度,可以很好地区分图像中的建筑物、绿地等一般特征,达到辅助解译的目的。 

        图3  不同模型的示例翻译图像。每一列图像表示。(a) SAR图像。(b) CycleGAN生成的结果。(c) NICE-GAN生成的结果。(d) CRAN生成的结果。(e)我们提出的模型的结果。(f)真实光学图像(地面真值)。

        图4  示例翻译图像。每一行图像为(a)作为条件的SAR图像和(b)我们的相应结果。(c)真实光学图像。前两列来自SEN12,后两列来自GF-3。

        为了评估该方法在现有图像翻译方法中的性能,我们与几种基于GAN的模型进行了比较分析。具体来说,我们选择CycleGAN和NiceGAN进行比较,这两种方法在I2I转换任务中已经取得了先进的性能。级联残差对抗网络(CRAN)是一种使用级联残差连接和混合L1-GAN损失的新型对抗网络,专门用于SAR到光学图像的转换。为了保证公平性,我们使用了它们的官方实现,并在GF-3数据集上进行了相同条件下的测试。如表1所示,我们提出的方法提高了SSIM和FID分数。它优于基于GAN的模型,达到了更高的性能,表明我们的条件扩散模型架构可以更好地学习从SAR到光学图像的映射规则。实验结果表明,该模型能够生成具有较高SSIM的高质量图像,并与真实光学图像具有视觉特征统计分布。

        表1  采用不同评价方法对不同方法的结果进行比较。 

        为了进行更直观的比较,我们进一步将GF-3数据集上不同场景下的翻译结果可视化,包括建筑物、道路等,与基于GAN的模型进行对比。如图3所示,我们的模型可以生成更加真实自然的光学图像,不同物体的边界更加明确。也可以看出,现有的模型在修复建筑物方面的表现都不是很好,但我们的模型具有最好的可识别性。然而,我们的方法存在整体颜色偏移的问题。CycleGAN采用一致性损失来保证生成图像的一致性,这也被后续基于GAN的模型所采用。将这种损失函数集成到我们提出的模型中尚未完成,这可能解释了与基于GAN的模型相比更严重的色移。通过将风格一致性损失集成到DDPM中来解决颜色变化仍然是一个未实现的目标,这将是未来工作的主要重点。此外,我们的目标是使我们的模型适应大型场景图像,增强其现实世界的适用性。这涉及到优化扩散模型,以减少参数和推理步骤,同时保持高质量的图像生成。为了缓解即时的色移挑战,我们使用对光学图像进行训练的着色模型来优化模型的结果,以生成更逼真的光学图像,这是实现实例感知着色的框架。

5  结论

        在本文中,我们提出了一种基于扩散过程的SAR到光学图像转换的新模型,该模型利用SAR图像作为制导将高斯噪声转换为真实的光学图像。它在生成光学图像方面优于当前基于GAN的模型,这些图像明显更清晰,并且显示更少的伪影。此外,我们的模型在训练中表现出显著的易用性,有效地规避了模式崩溃的常见问题。定量评估证实了其优越的性能,特别是在保持SAR和生成的光学图像之间的结构一致性方面。尽管取得了这些进步,但该模型仍然面临着挑战,比如颜色变化。未来的研究将集中于解决这一限制,并将模型扩展到更大的场景中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

IAz-

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值