Multi-Head Linear Attention Generative Adversarial Network for Thin Cloud Removal 论文翻译

全局优化2020

论文名称 用于薄云去除的多头线性注意力生成对抗网络

摘要

在遥感图像中,薄云的存在是一种不可避免且普遍的现象,它严重降低了影像质量并限制了应用场景。因此,薄云去除是增强遥感图像利用率的重要步骤。通常,即使受到薄云的污染,像素仍然或多或少保留了表面信息。因此,与厚云去除不同,薄云去除算法通常集中于抑制云的影响,而不是替代被云污染的像素。同时,考虑到云遮挡的表面特征通常与相邻区域相似,输入图像中每个像素之间的依赖关系对重建污染区域非常有用。在本文中,为了充分利用图像中像素之间的依赖关系,我们提出了一种用于薄云去除的多头线性注意力生成对抗网络(MLA-GAN)。MLA-GAN 基于编码解码框架,由多个基于注意力的层和反卷积层组成。与六个基于深度学习的薄云去除基准方法相比,在 RICE1 和 RICE2 数据集上的实验结果表明,所提出的 MLA-GAN 框架在薄云去除方面具有显著优势。

关键词 薄云去除、注意力机制、生成对抗网络

1. 引言

        得益于地球观测技术的快速发展,现如今可获得大量具有高空间和光谱分辨率的遥感图像,这些图像可应用于图像分类(Lyons et al., 2018;Maggiori et al., 2016)、目标检测(Li et al., 2017;Xia et al., 2018)和语义分割(Kemker et al., 2018;Zhang et al., 2019a)等多个领域。轨道获取的重访特性使得对陆地表面、海洋和大气的连续监测成为可能。作为主要的获取方法,光学传感器在捕捉和生成遥感图像中发挥着重要作用。然而,光学遥感图像不可避免地受到云层覆盖的污染,这严重妨碍了其潜在利用价值。具体而言,全球约有35%的陆地表面在任何时间都被云层遮挡(Lin et al., 2013)。云层减缓了电磁信号的传输,导致表面信息缺失。厚实的不透明云可能会完全阻挡来自地球表面的回波信号,而薄透光云则会衰减电磁信号的能量,并使被覆盖区域出现雾霾(Li et al., 2019)。由于云层覆盖是不可避免且普遍存在的,极大限制了光学遥感图像的可用性,因此使用适当的方法去除云层显得至关重要。

        对于厚云去除,由于土地覆盖信息完全被阻挡,主要目标是利用可用信息重建被云污染的像素。根据用于重建云覆盖区域的信息来源,现有方法可分为基于空间信息的方法(Cheng et al., 2017;Shen et al., 2014;Zeng et al., 2013)、基于光谱信息的方法(Li et al., 2012;Malek et al., 2017;Zhang et al., 2002)和基于时间信息的方法(Chen et al., 2019b;Ji et al., 2018;Zhang et al., 2020b)。具体而言,基于空间信息的方法通过云掩盖区域及无云区域的信息来修复云区。典型方法包括像素插值(Van der Meer, 2012)、张量补全(Liu et al., 2012)和结构保持全局优化(Cheng et al., 2017)。然而,由于有限的可用信息,基于空间信息的方法通常只能在云层覆盖非常大的情况下生成一个视觉上合理的无云图像。对于多光谱和高光谱图像,即便某些波段受到云层污染,其余特定波段仍可能完好无损。因此,基于光谱信息的方法(Gladkova et al., 2011;Malek et al., 2017)旨在利用未受影响和无污染波段的信息来恢复缺失波段的信息。然而,当所有波段都受到污染时,这些方法就失效了。基于时间信息的方法是解决这一困境的有效方案,它们利用至少一幅无云参考图像来覆盖待修复图像中的云区。引入了残差校正(Zeng et al., 2018)、马尔可夫随机场(Cheng et al., 2014)、主成分分析(Zhang et al., 2019c)、稀疏分解(Chen et al., 2019b)和许多其他先进技术。

        与厚云去除不同,薄云去除的基本目标是抑制云成分并增强表面特征,因为土地覆盖的信息并未完全被云层遮挡。将薄云视为低频成分,已有一些方法通过在频域中处理这一问题而提出(Hu et al., 2015;Li et al., 2013)。例如,Liu 和 Hunt(1984)提出了同态滤波(HF)方法,通过使用低通滤波器抑制薄云区域。(Shen et al., 2014)进一步改进了 HF 方法,将薄云视为低频信息。由于高空间相关性,Xu 等人(2019)发现云污染数据的最高信噪比特性,并开发了一种主成分转换方法用于薄云去除。

        与此同时,基于光谱的方法也常用于薄云去除(Meng et al., 2009;Zhang et al., 2014)。雾霾优化变换(HOT)是一种强健且简洁的方法,用于分析土地覆盖的光谱响应属性和雾霾/云层的空间分布(Zhang et al., 2002)。(Chen et al., 2015)进一步开发了一种迭代的 HOT(IHOT)方法,以解决亮表面与雾霾/云层之间的光谱混淆问题。(Lv et al., 2016)提出了一种基于经验和辐射传递模型的云去除算法,该模型建立在假设地面目标的气顶反射率在晴空条件下任意两个可见波段之间线性相关的基础上。

        尽管所有这些尝试都取得了令人鼓舞的进展,并拓宽了云去除领域的边界,但对特定卫星传感器和手工设计参数的高度依赖限制了这些传统方法的灵活性和适应性。

        最近,卷积神经网络(CNN)作为一种强大的方法,能够自动捕捉大量数据中的非线性和层次特征,为充分利用遥感领域中丰富的数据提供了一个有前景的解决方案。充足且高质量的数据使得CNN模型能够提供细粒度和高质量的结果,这些结果已成功广泛应用于遥感图像处理(Zhu et al., 2017b),包括高光谱分类(Li et al., 2020d)、目标检测(Deng et al., 2018)、超分辨率(Jiang et al., 2019)、土地覆盖分类(Zhang et al., 2020a)和分割(Griffiths and Boehm, 2019)。

        因此,许多基于CNN的端到端框架被提出,用于去除云成分并恢复遥感图像中丢失的像素,尤其是在厚云去除方面。例如,(Zhang et al., 2018) 提出了一个基于深度卷积神经网络的统一时空光谱框架(STS-CNN)来重建受污染区域。为了同时检测和去除云区,(Ji et al., 2020) 提出了一个使用级联CNN的新框架。(Zhang et al., 2020b)设计了一个时空补丁组深度学习框架,以解决现有方法在时间信息不完整等方面的局限性。同样,也有一些文献讨论薄云去除。例如,(Qin et al., 2018) 设计了一种新型的基于深度CNN的方法,以去除薄云并去雾多光谱遥感图像。之后,(Li et al., 2019) 设计了一个名为残差对称连接网络(RSC-Net)的端到端框架,用于薄云去除。

        尽管CNN的应用展示了在遥感图像云去除方面的巨大潜力,但对无云参考图像的依赖限制了CNN的应用场景。实际上,由于数据获取的时间延迟,来自同一区域的无云参考图像通常既不可用又不包含相似的地表特征。因此,实现一种不需要参考图像的无监督方法是一个吸引人的课题。

        令人鼓舞的是,生成对抗网络(GAN)为复杂分布的无监督学习提供了可行的解决方案。该模型通过生成模型(G)和判别模型(D)之间的双方最小化博弈生成虚假样本(Goodfellow et al., 2014)。随后,使用GAN框架开发了配对图像到图像翻译(Isola et al., 2017)和无配对图像到图像翻译(Zhu et al., 2017a)。在(Enomoto et al., 2017) 中,条件GAN被扩展到多光谱图像用于云去除。(Singh and Komodakis, 2018)通过基于循环GAN的网络解决了云去除问题。在(Zheng et al., 2020) 中,设计了一个两阶段方案用于单幅图像云去除,包括云分割阶段和图像恢复阶段。(Li et al., 2020a) 则通过将云扭曲的物理模型与GAN结合来解决薄云去除问题。

        此外,图像去雾和图像去雨是计算机视觉社区中与薄云去除类似的两个任务,在这些领域投入了大量的努力。例如,(Zhu et al., 2015) 提出了用于单幅图像去雾的颜色衰减先验(CAP)。(Chen et al., 2019a) 提出了一个端到端的门控上下文聚合网络(GCANet)以恢复无雾图像。在(Wang et al., 2019) 中,提出了一个名为空间注意网络(SPANet)的局部到全局框架,用于去除雨条纹。

        考虑到某一地区相邻区域的地表特征通常是相似的,输入图像中像素之间的关系对重建污染区域和保持视觉一致性非常有用。由于其强大的捕获长程依赖的能力,点积注意机制已成功引入GAN框架中(Zhang et al., 2019b)。然而,点积注意机制的使用通常伴随着显著的内存和计算成本,这随输入的空间和时间大小呈二次增长。因此,注意机制与网络之间的普遍而灵活的组合仍然是一个难以解决的问题。为了解决这一困境,本文提出了一种半监督的多头线性注意生成对抗网络(MLA-GAN),用于薄云去除,基于我们之前关于降低注意机制复杂性的研究(Li et al., 2020b;Li et al., 2020c)。所提的MLA-GAN方法的主要贡献有两个方面。一方面,我们证明了注意机制在薄云去除任务中的有效性。另一方面,我们提供了一个合理地结合注意机制和GAN的新框架。

2. 方法
1)点积注意

图1点积注意力示意图。

设 N 和 C 分别表示输入序列的长度和输入通道的数量,输入特征表示为 X=[x1​,…,xN​]∈RN×C。首先,三个投影矩阵 Wq​∈RDx​×Dk​、Wk​∈RDx​×Dk​ 和 Wv​∈RDx​×Dv​ 被缩放点积注意力用于相应的查询矩阵 Q、键矩阵 K 和值矩阵 V:

        值得注意的是,查询矩阵和键矩阵的维度应当是相等的,并且本节中的所有向量默认都是列向量。因此,第 i 个查询特征 qiT​∈RDk​ 和第 j 个键特征 kj​∈RDk​ 之间的相似性通过归一化函数 ρ 进行评估,如 ρ(qiT​kj​)∈R1。通常,由于查询特征和键特征是使用不同层计算的,因此 ρ(qiT​kj​) 和 ρ(qjT​ki​) 之间的相似性不是对称的。通过计算所有位置对之间的相似性并将这些相似性作为权重,缩放点积注意力模块通过加权求和从所有位置聚合值特征来生成位置 i 的值:

softmax是一个常用的归一化函数:

        其中 softmax 表示在矩阵 QKT 的每一行上使用的软最大化函数。通过建模输入中每对目标之间的相似性,ρ(QKT) 可以充分提取特征中包含的全局依赖关系。然而,对于 Q∈RN×Dk​ 和 KT∈RDk​×N,Q 与 KT 之间的乘积属于 RN×N,导致 O(N2) 的内存和计算复杂度。因此,点积的高资源需求严重限制了其在大输入上的应用。因此,有必要降低缩放点积注意力对计算资源的巨大需求。

2) 点积注意力机制的概括和简化

根据方程 (2),在软最大化归一化函数条件下,点积注意力模块生成的结果矩阵的第 i 行可以表示为:

将式(4)推广为任意归一化函数,式(4)可重写为:

        其中 sim(qi​,kj​) 可以扩展为 ϕ(qi​)Tϕ(kj​),以估计 qi​ 和 kj​ 之间的相似性。特别地,如果 ϕ(⋅)=ϕ(⋅)=e(⋅),则方程 (5) 等价于方程 (4)。因此,方程 (4) 可以重写为方程 (6),并简化为方程 (7):

对于 K∈RDk​×N 和 VT∈RN×Dv​,K 与 VT 之间的乘积属于 RDk​×Dv​,从而显著降低了缩放点积注意力机制的复杂度。合适的 ϕ(⋅) 和 ψ(⋅) 使上述方案能够以有限的复杂度实现卓越的性能(Katharopoulos et al., 2020; Li et al., 2020c)。

3) 线性注意力机制

基于泰勒展开的一阶近似,我们在之前的工作中提出了一种注意力机制(Li et al., 2020b),如方程 (5) 所示:

由于上述近似无法保证为非负,因此通过 l2​ 范数对 qi​ 和 kj​ 进行归一化,以确保 qiT​kj​≥−1:

因此,方程 (5) 可以重写为方程 (10),并简化为方程 (11):

公式(11)可以转换为向量化形式:

由于 ∑j=1N​∥kj​∥2 和 ∑j=1N​∥vj​∥2 可以被计算并在每个查询中重复使用,因此基于方程 (12) 的注意力的时间和内存复杂度为 O(N)。通过广泛的消融实验和分析(Li et al., 2020b),验证了所提注意力机制的有效性和效率。

4) MLA-GAN 的架构

从图 2 可以看出,所提出的 MAL-GAN 由两个网络组成:生成网络 (G) 和判别网络 (D)。在训练网络时,G 和 D 之间在一个极小极大博弈中相互竞争,其中 G 努力生成无云且真实的图像,而 D 则努力区分 G 生成的可信图像与真实的无云图像。这个过程可以表述如下:

        这里,x 表示真实样本,其分布为 pd​,z 代表受云影响的图像,具有 pz​ 分布,而 V(G,D) 表示 G 和 D 的损失值。从方程 (13) 可以看出,G 通过提供高质量的图像来最小化 V(G,D),而 D 则通过区分真实和虚假图像来最大化 V(G,D)。当 V(G,D) 在训练集上收敛到纳什均衡时,我们使用 G 和受云影响的图像进行测试。MLA-GAN 的损失函数如下所示:

其中 C、H 和 W 分别表示图像的通道数、高度和宽度, Icloud​ 是输入的云图像,而 Igt​ 是真实值。

图2 MLA-GAN的流程图

图3发电机结构示意图。

Fig.4 The structure of the discriminator

3. 实验结果与讨论

1) 数据集

在本文中,我们使用由 Lin 等人(2019)提供的开源数据集 Remote Sensing Image Cloud Removing (RICE) 来评估所提出的 MLA-GAN 的性能与其他模型的比较。RICE 数据集中有两个子集,分别称为 RICE1 和 RICE2。具体而言,RICE1 包含 500 个样本,这些样本是通过 Google Earth 收集的,每个样本都有一个带云图像和相应的无云图像,分辨率为 512×512。带云/无云图像是通过设置云层显示与否获得的。RICE2 中的 736 组 512×512 样本是通过使用具有地理参考的 LandsatLook 图像从 Landsat 8 OLI/TIRS 数据构建的,其中无云图像是在同一位置手动选定的,且云图像的时间间隔小于 15 天。RICE 的数据样本如图 5 所示。对于每个数据集,80% 的样本被选作训练集,其余作为测试集。

图5所示。大米的数据样本。

2) 评估指标

为了衡量生成的无云图像的质量,本文采用峰值信噪比(PSNR)(Huynh-Thu 和 Ghanbari, 2008) 和结构相似性指数(SSIM)(Wang et al., 2004) 作为图像质量评估指标,以指示去云能力。具体而言,PSNR 表示最大像素强度与失真功率的比率,可以表述为:

其中 Mmax​=(2n−1)2,n 是像素值的位数,MSE 测量图像 X 和 Y 之间的均方误差:

        通常,PSNR 的值介于 20 到 40 之间,而较大的值表示更好的预测质量。

SSIM 通过亮度、对比度和结构评估两幅图像之间的相似性:

其中 C1​、C2​ 和 C3​ 是为了避免除零错误而设置的常数,μ 和 σ 表示图像的均值和方差,σXY​ 表示图像 X 和 Y 的协方差。

3) 实验设置

为了全面测量所提出的 MLA-GAN 的性能,我们考虑几个基准比较方法,包括传统的去云方法 AHF (Shen et al., 2014)、传统的图像去雾方法 CAP (Zhu et al., 2015)、基于 CNN 的图像去雾方法 GCANet (Chen et al., 2019a)、基于 CNN 的去云方法 RSC-Net (Li et al., 2019)、基于 GAN 的去云方法 Cloud-GAN (Singh 和 Komodakis, 2018),以及基于 GAN 的去雨图像方法 SPANet (Wang et al., 2019)。

4) 结果与分析

在这一部分中,我们将展示实验结果并进行分析,包括所提出的 MLA-GAN 在云去除任务中的表现以及与其他基准方法的比较。通过对比 PSNR 和 SSIM 值,我们能够评估生成的无云图像的质量。此外,将通过定性和定量分析来探讨不同方法在处理复杂场景和各种天气条件下的性能差异。具体结果将在以下小节中详细呈现。

表1
基于rice1数据集的定量分析

        所生成的不同方法在 RICE1 数据集上的结果如图 6 所示,定量比较结果展示在表 1 中。由于 RICE1 中几乎所有的云都是薄云,地表特征并未完全丢失,因此每种方法都能保持图像的正确几何结构和空间信息。尽管几乎所有生成的结果在视觉上都看起来合理,但定量指标清楚地表明了不同方法之间的巨大差距。由于缺乏训练过程并依赖手工制作的特征,AHF 和 CAP 在七种方法中表现最差。

        AHF 去除云的原理是抑制低频成分,同时增强高频成分,但去云区域的低频信息也会被消除。CAP 在假设常数散射系数的基础上去雾,该假设往往低估传输率,尤其是在非均匀大气条件下。因此,CAP 的性能严重依赖于图像获取过程。如图 6 所示,CAP 未能去除第一幅图像中的薄云。

图6所示。在RICE1上生成的结果。

        结果表明,基于深度学习的方法在视觉和定量方面均超越了传统方法。Cloud-GAN 修复的图像保留了背景的主要纹理和结构特征,看起来在视觉上是合理的,但最后一列放大图显示细节模糊。这是因为 Cloud-GAN 的循环结构融合了包含云的信息,以帮助网络恢复无云图像。

        GCANet 和 RSC-Net 是基于 CNN 的网络架构,通过计算输入的带云图像与相应的无云图像之间的差异,引导模型学习背景特征并更新参数。因此,它们的结果超过了 Cloud-GAN,后者在保留背景的纹理和结构特征方面相对较好,但与参考图像的色调有所不同。例如,RSC-Net 在最后一列生成的河流颜色与真实值完全不同。在 SPANet 中,基于具有 ReLU 和单位矩阵初始化 (IRNN) 的双轮四向递归神经网络,利用空间注意模块捕获上下文信息并生成云掩膜,从而保证了 SPANet 的性能。然而,明显的条纹降低了 SPANet 生成结果的质量。

        相比之下,所提出的 MLA-GAN 不仅在视觉上合理,而且在定量上提供了高质量的去云结果。具体而言,与其他方法相比,PSNR 值提高了超过 2 dB,SSIM 值提高了 1%。由于考虑了特征图中所有位置之间的长距离关系,所提出的 MLA-GAN 生成的纹理和结构特征保持了更多的一致性和真实性。如图 6 最后一列的放大图所示,MLA-GAN 保留和恢复了更多的细微细节,其颜色色调与真实值一致。

图7所示。在RICE2上生成的结果。

        所提出的 MLA-GAN 在 RICE2 数据集上的结果更为显著。具体而言,由于 RICE2 数据集中部分图像受到厚云的干扰,云污染区域的表面特征完全不可辨识,因此 AHF 和 CAP 无法恢复被厚云覆盖的信息,因为它们未考虑相邻可用特征。相比之下,几乎所有基于深度学习的方法(除了 Cloud-GAN)都达到了令人满意的视觉效果。然而,图 7 最后一列的放大图清晰地展示了不同方法之间的巨大差异。

        GCANet 的结果明显比原始图像和真实值要暗得多。RSC-Net 消除了位于河流中的一些小石头,这在放大图的右上角可以看到。Cloud-GAN 的色调与原始图像存在很大差异。至于 SPANet,生成的河流区域部分被灰色的噪声污染。相比之下,所提出的 MLA-GAN 保留了足够且生动的细节,同时与原始图像保持一致和准确的色调。

        此外,定量评估明确展示了 MLA-GAN 的优势。从表 II 可以看出,PSNR 提高了近 4 dB,SSIM 提高了 2.5%。

表Ⅱ
基于rice2数据集的定量分析

5) 消融研究

为了验证和分析线性注意机制及注意头数量对 MLA-GAN 性能的有效性,我们实现了五个额外的框架,即 MC-GAN(将 MLA-GAN 编码器中的每一层替换为 CNN)、MLA-GAN1(设置头数为 1)、MLA-GAN2(设置头数为 2)、MLA-GAN6(设置头数为 6)和 MLA-GAN8(设置头数为 8)。结果表明,基于注意力的方法优于基于 CNN 的方法,这得益于注意力机制在提取长距离依赖关系方面的强大能力。

同时,注意力头数量的增加并不总是带来性能提升。这表明,在特定情况下,过多的注意力头可能会引入冗余信息,从而未必能有效改善模型表现。通过对不同配置的比较,我们能够更好地理解各个组件对整体性能的贡献,以及如何优化模型结构以实现最佳效果。

表Ⅲ
消融研究

4. 结论

光学卫星获取的遥感图像容易受到气候影响,这大大降低了遥感数据的可用性和可获得性,尤其是当存在云覆盖时。因此,在进行图像分析和利用之前,去除云层是一个不可避免的重要预处理步骤。尽管具有注意力机制的神经网络在计算机视觉和自然语言处理任务中显示出了巨大的潜力,但与遥感卫星云层去除相关的研究和应用仍然相对有限。本文首次将注意力机制与生成对抗网络(GAN)结合,引入到遥感图像云层去除任务中,并首次提出了一种全注意力框架(MLA-GAN)。编码器每一层中的多头线性注意力机制使得MLA-GAN能够捕捉和利用特征图中整体像素之间的长程依赖关系和关联性。与传统方法、基于CNN的方法以及基于GAN的方法相比,在RICE1和RICE2数据集上的实验验证了所提框架最佳的云层去除能力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值