TGRS2020/云检测：Deep Matting for Cloud Detection in Remote Sensing Images深度抠图在遥感图像云检测中的应用

HheeFish

已于 2022-11-21 16:49:02 修改

阅读量1.7k

点赞数

分类专栏：遥感影像云检测文章标签：深度学习人工智能神经网络图像处理

于 2022-11-17 16:15:21 首次发布

本文链接：https://blog.csdn.net/ssshyeong/article/details/127889144

版权

遥感影像云检测专栏收录该内容

17 篇文章

订阅专栏

TGRS2020/云检测：Deep Matting for Cloud Detection in Remote Sensing Images深度抠图在遥感图像云检测中的应用

0.摘要
1.概述
2.云图像的混合能量成像模型
3.深度云抠图
4.实验数据设置
5.实验结果和分析
6.讨论
7.总结
参考文献

0.摘要

云检测作为遥感图像分析的一项重要预处理操作，近年来受到越来越多的关注。以往的大多数云检测方法都将云检测看作是一个基于像素的图像分类问题(云与背景)，这在处理薄云检测时不可避免地会导致类别模糊。本文从云图像的遥感成像机制出发，从一个完全不同的角度重新审视云检测，即将云检测定义为前景和背景图像的混合能量分离。这一过程可以在基于深度学习的图像抠图框架下进一步等效地实现，具有明确的物理意义。更重要的是，该方法能够在统一的框架下处理三个不同但相关的任务，即“云检测”、“云去除”和“云量评估”。在三个卫星图像数据集上的实验结果证明了我们的方法是有效的，特别是对遥感图像中较复杂但常见的例子，如薄云和卷云。

1.概述

近年来遥感技术的快速发展为人们更好地了解地球打开了一扇门。光学遥感作为遥感模拟技术的一个大家族，近年来在土地监测、灾害救援、军事侦察等领域得到了广泛的应用。尽管光学遥感图像的应用十分广泛，但其地物通常被云层所覆盖，这极大地限制了光学图像的使用，增加了图像分析的难度。据Stubenrauchet al.[1]报道，平均每天有超过50%的地球表面被云覆盖。云探测的研究具有重要意义，近年来受到越来越多的关注。
以往的大多数云检测方法都将云检测作为语义分割过程，即在像素分类(云与背景)范式下为前景(云)和背景图像区域生成二进制掩码。一些常用的方法包括频带分组/阈值分割方法[2]-[7]，传统的图像分割方法[8]-[10]，以及最近流行的基于深度学习的图像分割方法[11]-[17]。由于这些方法大多借鉴计算机视觉领域，没有考虑到RS成像背后的机理，按像素分类在检测薄云时不可避免地会导致类别模糊。因此，这些方法的一个共同缺陷是不能很好地处理薄云。
图像中的云通常以云本身和下面的地面物体混合的视觉外观形式出现。云可能有不同的厚度和不同的透明度。由于成像传感器接收到的能量可以近似为云层和地面物体反射率的线性组合，RS图像可以被认为是“云层”和“背景层”的叠加。因此，云检测自然是混合图像分离的问题。
在图像处理领域，图像抠图[18]-[20]是指从图像中提取前景对象的一组方法，与上述描述相比，其思想非常相似。抠图是图像和视频编辑中的一项重要任务。一些相关的工作可以追溯到20世纪90年代[18]。传统的图像抠图方法可分为两大类:1)基于采样的方法[21]-[23]和2)基于传播的方法[19]，[24]，[25]，其中基于采样的方法[19]，[24]，[25]通过给定一组前景和背景采样区域的预定义度量产生抠图，而基于传播的方法将预测结果重新定义为前景和背景区域的传播。matting任务通常产生一个“matte”，可以用来在给定的图像中分离前景和背景，这自然对应于云检测过程。为此，我们从云图的“混合能量成像模型(待介绍)”出发，提出了一种全新的云检测范式“深度云Matting”，将云检测重新定义为前景和背景图像之间的混合能量分离，可以在图像抠图框架下等效地实现。近年来深度学习技术的发展极大地促进了图像抠图[20]、[26]的发展，我们利用深度卷积神经网络(CNN)和多任务学习框架的优势，在统一的深度卷积架构下，通过学习预测“云反射图”和“云不透明度图”等多个输出，实现基于抠图的云检测。该框架具有可扩展性和灵活性，具有明确的物理意义，并可以端到端方式联合训练。特别地，我们将传统的云检测模型作为我们方法的特例
为了改进对薄云和细云等困难实例的预测，我们将注意机制进一步集成到方法中。在机器翻译中引入注意最初是为了提高编码器-解码器循环神经网络(RNN)模型的性能，该模型通过考虑来自多个时间步的输入来做出一个预测[27]。在基于cnn的模型中，机制注意的引入有助于研究不同特征位置的空间相关性，目前已广泛应用于物体检测[28]、光学字符识别[29]和图像字幕[30]、[31]等计算机视觉任务中。在该方法中，通过引入云前景图(表示有云的位置)作为其他两个任务损失函数的像素级注意权重，可以很好地指导云反射率和不透明度的学习。上述设计有两个优点。首先，它使训练过程更加关注那些困难的例子。其次，有助于减少云反射率预报与不透明度预报之间的相关性。该方法不仅能准确预测云的详细区域，还能准确预测云的反射率和不透明度，进而用于云的去除和云覆盖的评估。在三个卫星图像数据集上的实验结果证明了该方法的有效性
本文的贡献总结如下：
1)在以往的大多数云检测文献中，检测都被框架为像素分类过程，而没有考虑到RS成像的性质。这种像素分类范式在处理稀薄和缕缕云的检测时产生了固有的缺陷。本文提出了一种全新的云检测框架，该框架将云检测重新定义为前景-背景能量分离过程。该思想可以在经典的图像抠图框架下进一步实现，该框架由云图像的混合能量成像模型派生而来
2)为了提高对薄云、薄云等“难例”的检测能力，在方法中引入了注意机制，减少了任务间的耦合，使学习过程更专注于这些难例。
3)在以往的RS文献中，虽然云探测[2]-[17]、云覆盖评估[32]-[34]和云去除[35]-[42]之间具有较高的相关性，但它们分别进行了研究。这抑制了联合优化，使方法的实现非常复杂。该方法不设计单独的算法，而是在相同的框架下处理三个任务，并以端到端方式进行训练
本文其余部分的组织如下。在第二节中，我们介绍了云图像的混合能量成像模型，以及如何在图像抠图框架下制定云检测。在第三节中，我们详细介绍了我们提出的方法，包括网络配置、多任务丢失功能和实现细节。在第四节中，我们介绍了实验中使用的数据集。第五节给出了一些实验结果。在第六节中，我们讨论了我们方法的缺点和局限性，并在第七节中得出了结论

2.云图像的混合能量成像模型

在这里插入图片描述

图1所示。云图[43]、[44]的“混合能量成像模型”示意图。传感器在单位时间内接收到的能量可以近似地认为是云和地物的反射率能量的线性组合。

当卫星或飞机飞过云层覆盖的区域时，机载成像传感器会同时接收地面物体和云层的反射能量。传感器在单位时间内接收到的能量可以近似地认为是[43]、[44]这三个项的线性组合:1)云的反射能量;2)不受云团干扰的地物反射能;3)地物辐射，如图1所示。这个过程可以描述如下:
在这里插入图片描述
其中，E为传感器接收到的总能量，E_CR为云反射的能量，E_BR为不受云遮挡的地物的反射率能量，E_BE为地物的辐射，对于可见波段通常可以忽略不计。α是由于云层遮挡导致的地面反射率衰减因子(0≤α≤1)。α值越大，云就越厚:α=0表示没有云，而α=1表示地面物体完全被云遮住了。我们将上述模型称为云图的“混合能量成像模型”
为此，RS图像I(x)一般可以表示为云反射率图R_c(x)和背景反射率图R_b(x)的线性组合。
在这里插入图片描述
x表示图像中的像素位置。
根据上述模型，我们在统一的框架下处理三个不同的问题，即云检测、云覆盖评估和云去除。

2.1.任务一：云检测

由于云反射率图R_c(x)定义了单位时间内云反射的能量的多少，云检测任务可以认为是学习从输入云图到云反射率图的映射:I(x)→R_c(x)。当α(x)=1和R_c(x)设置为二值值(即0和1)时，预测将退化为简单忽略反射率的传统云检测方法

2.2.任务二：云覆盖评估

由于α(x)对应的是由于云层遮挡而抑制了地物反射能量的多少，我们将其定义为云层的“厚度”。因此，云覆盖评估任务可以看作是学习从输入到云不透明度图的映射:I(x)→α(x)。

2.3.任务三：云去除

云的去除本质上是一个背景图像恢复问题。根据(2)，很容易得到如下的背景反射率图像
在这里插入图片描述
这意味着，一旦我们获得了R_c(x)和α(x)，云就可以很容易地删除，从而恢复背景图像。需要注意的是，当α(x)=1时，地面完全被云覆盖，因此无法恢复

3.深度云抠图

近年来，深度CNN在许多计算机视觉任务中发挥了核心作用，如图像分类[45]，[46]和物体检测[47]-[49]。CNN也被广泛应用于各种遥感任务中，如物体检测[50]，场景标记[51]，遥感图像字幕[52]，云检测[12]。与传统方法不同，CNN模型通过构建多层神经网络学习高级图像表示，具有更好的识别力和鲁棒性，而传统方法的图像特征是手动设计的。在本文中，我们基于CNN架构构建自己的网络

3.1.网络架构

在这里插入图片描述

图2所示。所提议的网络体系结构概述。该网络由一个用于学习特征表示的编码器和三个用于预测多个输出(包括云反射率、云不透明度和云掩码(注意图))的解码器组成。

在多任务学习框架下，我们建立了云反射率映射R_c(x)和云不透明度映射α(x)的学习和预测。该网络由一个编码器和多个解码器组成，其中编码器旨在学习输入图像的高级特征表示，而解码器旨在预测多个头部的多个期望输出，如图2所示
为了改进对薄云等困难例子的预测，我们进一步将注意机制集成到我们的模型中，通过在解码器中引入一个额外的注意分支。因此，该译码器由三个输出分支组成:第一个输出分支用于预测云反射率图R_c(x)，第二个输出分支用于预测云不透明度映射α(x)，最后一个输出分支即注意力分支，用于生成云像素的二进制云掩码，同时指导前两个分支的学习，使其更专注于困难的区域。具体来说，注意力分枝接受前景maskA(x)(其中1是云覆盖像素，0是无云像素)作为它的真值引用。预测的注意力分数是其他两个任务的损失函数的像素权重(将在第3.2节中介绍)。
由于CNN模型由一系列卷积层和池化层组成，所以较深层的特征具有较强的不变性，但相等性较小。虽然这可能有利于类别识别，但它通常会损失诸如对象的边缘和边界等细节。为了提高具有高级语义和局部细节特征的学习能力，该方法采用了特征融合(FF)，如图2所示，在从编码器到三个解码器的不同层之间引入跳跃连接。上述网络可以通过多任务丢失函数进行端到端的训练

3.2.多任务损失

我们的注意力丢失函数由三部分组成:1)注意力分支损失L(A(x));2)云反射率预字典的损失L(R_c(x));3)云不透明度预测损失L(α(x))
在这里插入图片描述
其中，γ₁、γ₂和γ₃是平衡三个任务之间学习权重的三正系数。x是像素位置。这三个损失函数的详细描述如下。

3.2.1.注意力分枝

注意地图的预测本质上是一个像素级的二元分类过程。我们用二元交叉熵损失作为其损失函数
在这里插入图片描述
其中A(x)和 $\hat{A}(x)$ 是注意分支的预测(概率)和二进制标签。

3.2.2.云反射分支

由于云像素的反射率是一个连续的值，我们将云反射率的预测表述为一个回归问题。为了获得更可靠的预测，特别是对于异常值，例如一些低反射率的薄夹杂，我们使用L1(绝对值)函数作为该分支的损失
在这里插入图片描述
其中R_c(x)和 $\hat{R}_c(x)$ 分别代表云反射率的预测值和真实值。A(x)被用作损失函数的像素级权重使学习聚焦于云区域

3.2.3.云不透明度分支

云的不透明度也可以通过回归过程来学习。损失函数定义如下:
在这里插入图片描述
其中α(x)和 $\hat{α}(x)$ 分别代表云不透明度的预测值和真实值，使用A(x)作为损失函数的像素权值，使学习聚焦于云区域。

3.3.应用细节

3.3.1.默认设置

在这里插入图片描述

我们网络的详细配置

我们构建了一个七层卷积网络作为我们的编码器，另一个七层卷积网络作为我们的解码器。我们的网络的详细配置如表i所示。“Ker”、“Stride”、“#Ker”和“σ(·)”表示卷积核的大小，卷积或池步幅，滤波器的数量和非线性激活层的种类分别。其中“conv”和“deconv”分别表示卷积运算和反卷积运算，53，用于对特征图进行上采样。除了输出层，批处理归一化(BN)[54]被嵌入到所有卷积和反卷积层中，以加速训练。这三个任务的解码器采用相同的架构。由于我们的注意分支的输出图不需要很高的精度，一个粗糙的指南就足够训练了。因此，我们设γ₁=1， γ₂=γ₃=10。我们使用学习率为10^-4的Adam优化器[55]进行训练。我们以3个批次训练16个课时。

3.3.2.数据增强

为了增加训练数据的多样性，缩小真实数据与综合数据之间的差距，采用了广泛的数据增强方法。对于一个尺寸为512×512的图像，我们首先旋转它与角度随机选择从[0◦，90◦，180◦，270◦]。然后，大小为410×410的块从旋转后的图像中随机裁剪，并调整大小为512×512。最后，我们随机翻转增强图像。

4.实验数据设置

在这里插入图片描述

我们的实验数据集的摘要

在这里插入图片描述

图3所示。综合训练数据生成过程的说明

我们的实验数据集由高分一号(GF-1)卫星捕获的328幅RS图像组成。原始图像有两种分辨率:8米/像素来自全色和多光谱(PMS)传感器，图像大小为4500×4500像素，16米/像素来自宽视场(WFV)传感器，图像大小约为12000×13000像素。我们数据集的统计数据见表二。在我们的训练集中有72个图像，在我们的测试集中有256个图像。每个图像都被下采样到固定的大小，512×512像素，用于训练。由于原始GF-1数据的原始像素有4个波段(蓝、绿、红、红外)，且深度为16位，所以所有图像在输入到网络之前都被转换为8位RGB图像。除此之外，我们不执行任何其他预处理操作。该数据集涵盖了大多数类型的地面特征，如城市、海洋、平原、高原、冰川、沙漠和戈壁。我们数据集中的每张图像都是手工制作的用像素二进制云掩码作为注意分支的groundtruth标记。在标注过程中，如果能透过云层清晰地观察到背景细节，我们认为云层为“薄云”;否则，我们认为它们是“厚厚的云层”。此外，如果图像中超过一半的云像素是薄云，则认为该图像为薄云图像;否则，它被认为是一个厚云图像。
请注意，手动注释它们的精确地面真值是不切实际的。这是因为云的反射率和不透明度都是连续的值。在图像制作中，目前解决这个问题的方法是使用synticdata[20]，[26]。我们遵循这个想法，为云反射图、不透明度图和注意力图生成一组具有“地面真相”标签的合成图像。利用训练集中的厚云图(其中α(x)≈1)和背景图(无云，其中α(x)≈0)生成合成图像及其地面真相图。合成数据生成过程如图3所示。我们使用完全被厚云覆盖的图像区域作为合成图像的地面真实云反射率。我们使用无云图像作为合成图像的真实背景反射率。然后，根据(2)对云和背景进行线性组合，生成合成图像，其中随机生成一个不透明度值作为组合权重。为了增加合成图像的多样性，对背景图像和云反射率图进行了随机旋转、翻转和裁剪。我们从训练集中选取38张背景图片和34张厚云图，合成10405张图像用于训练云抠图网络。我们选择了23张背景图片和43块厚云，从测试集合成5934张图像，用于评估云检测和云去除精度。由于我们用合成图像训练我们的网络，但在真实的图像上进行测试，我们需要更多真实的图像来进行测试，以获得更令人信服的结果。因此，我们在测试集中留下更多的图像
除了GF-1数据集之外，我们还在两个公共云检测数据集上进行了测试:gf1_武汉大学(WHU)数据集[5]和Landsat-8数据集[56]。GF1_WHUdata集合[5]由108张图像组成，Landsat-8数据集[56]由96张图像组成。由于我们不使用这两个数据集的图像来训练我们的模型，我们将这两个数据集中的所有图像作为测试图像。以上两个数据集中的所有图像都转换为8位图像，下采样到512×512像素。此外，由于我们方法中的网络是在RGB图像上训练的，在测试这两个数据集时，我们也相应地选择了这三个波段。

5.实验结果和分析

对于云检测任务，我们使用精度-召回(PR)曲线和“平均精度(AP)”得分作为我们的评估指标。PR曲线显示了通过改变检测输出的不同阈值，检测精度与召回率之间的关系
在这里插入图片描述
其中，N_t为地真云像素总数，N_c是正确检测云像素数，N_f虚警像素数。
对于云反射率和不透明度预测任务，使用三种不同的指标，包括平均绝对误差(MAE)、均方误差(MSE)和平均绝对百分比误差(MAPE)，定义如下:
在这里插入图片描述
其中，y和 $\hat{y}$ 分别为预测的输出和地面实况。i是像素id, N是像素总数

5.1.检测结果

在这里插入图片描述

图4所示。比较方法的云检测结果举例。第一列显示输入的云图像。第二至第六列是比较方法的结果。最后一列是我们的方法(云抠图+建议网络)预测的云反射率。(a)输入图像(b)逐级细化方案©情景学习(d) FCN + CLS (e)CloudFCN(f)RS-Net (g)云抠图

在这里插入图片描述

图5所示。不同云探测方法的PR曲线(以彩色显示效果更好)。(a)厚云图的结果。(b)薄云图的结果。

在这里插入图片描述

表iii不同方法云检测结果的比较。

在这里插入图片描述

表四比较了不同方法在gf1_whu数据集[5]和landsat -8 数据集[56]上的结果。“ap”被用作评价指标。

我们将我们的方法与最近的一些云检测方法进行比较，包括逐步改进[6]，场景学习[8]，全卷积网络+像素分类(FCN+CLS) [14]， CloudFCN[15]和RS-Net[16]，在我们的测试集上。我们还将云匹配网络的编码器替换为VGG16[57]和Resnet50[46]，以评估我们的框架的性能。图4显示了一些云检测示例。第一列显示输入的云映像。第二、六列是比较方法的结果。最后一列是我们方法预测的云反射率。
由于薄云和厚云在视觉外观和检测难度上有很大的差异，我们将薄云和厚云的结果分别进行评价。从表三和图中可以看出。5 .无论编码器的结构如何，我们的方法都具有较高的云检测精度，特别是对于薄云图像。对于厚云图像，我们的方法在高召回区域的检测结果与FCN+CLS[14]相似，它们的曲线相互交叉。由于PRS[6]只产生二进制输出掩码，我们无法在表III中计算它的sap，只能标记其精度并召回为图5中的一个单点进行比较。我们的方法的优点不仅体现在我们目前使用的度量标准上，还体现在云图像的物理机制上。虽然我们的方法只使用合成数据进行训练，但实验结果表明，该方法在真实数据上仍能达到与其他常用的云检测方法相当的精度
对gf1_whu数据集[5]和Landsat-8数据集[56]的云检测结果如表IV和图7所示。可以看出，我们的方法不仅可以在上述两个数据集上获得与其他云检测方法相当的apscore，而且可以从图像中准确提取云的反射率。这表明我们的方法可以应用于各种卫星平台。

5.2.云去除评估

在这里插入图片描述

表v:云去除任务不同方法的比较。分数越低表示结果越好。

在这里插入图片描述

图6所示。(用颜色看更好)我们的方法去除薄云的一些例子。(一)Input image。(b)云去除结果。©预测度(云量评估结果)。(d)预测的云反射率。最后一行显示了我们方法的一个失败案例;这幅图中没有云，但我们的模型错误地将雪预测为云。这可能是因为我们的训练集不包含任何雪图像

根据3，一旦我们获得了云的反射率图像和不透明度，就可以很容易地恢复背景。这样，我们可以通过计算恢复图像的MAE、MSE和MAPE及其“ground truth”来评估云彩去除的性能。我们比较我们的方法与四种经典的云去除方法:同态滤波[38]，变形雾霾[39]，AdaptiveRemoval[40]和球模型改进暗通道先验(SM-DCP)[41]。我们使用合成数据集来定量评估去除云层的效果。从表V中我们可以看出我们的方法获得了最好的去云效果。
图6显示了一些真实图像的云去除结果示例，其中(a)列显示输入图像，(b)列显示云去除结果，©列显示预测的不透明度，(d)列显示预测的云反射率。可以看到，薄云已经被移除，地面物体已经很好地恢复。
在这张图的第四行中，由于云的不透明度接近于1，厚云区域下的背景很难恢复，从而导致轻微的颜色失真。这张图的最后一行显示了我们方法的一个失败案例，图像中实际上没有云，但我们的模型错误地将雪识别为云。这主要是因为我们的训练集不包含任何雪图像，这可以通过添加更多的雪图像进行训练来轻松改进。因为这不是本文的重点，所以我们不会对区分云和雪像素做进一步的评估。

5.3.消融分析

在这里插入图片描述

对云的反射率和不透明度的预测进行了表活研究。2) ff; 3) bn

在这里插入图片描述

图7所示。GF1_WHU数据集5和Landsat-8数据集56上比较方法的云检测结果示例。第一列显示输入的云图像。第二、六列是比较方法的结果。最后一列是我们的方法(云抠图+建议网络)预测的云反射率。灰色标记的部分对应输入图像中的“黑色区域”，黑色和白色标记的部分分别对应背景和云。(a)输入图像。(b) PRS。©情景学习。(d) FCN + CLS。CloudFCN (e)。RS-Net (f)。我们(g)。

在这里插入图片描述

图8所示。云探测精度的烧蚀研究与测试数据。消融是在:1)注意机制(Att);2) FF;3) BN。

在这里插入图片描述

图9所示。提出的注意机制的有效性。第一列显示输入图像。第二和第三列显示了在注意损失的帮助下预测的w/o和w/反射率图。最后一列是注意力地图。(a)输入图像。(b)不注意的反射率。©注意反射率。(d)注意图

在本实验中，我们进行了消融分析，分析了我们方法中各个技术组成部分的重要性，包括:1)注意机制;2) FF;3) BN。首先评估基线方法，然后，我们逐渐整合这些技术。表六给出了他们在子测试集上的反射率和不透明度的对比结果。8是他们对整个测试集的云检测结果的比较。前两种方法的综合使用显著提高了云反射率和不透明度的预报精度，而BN方法的预报精度提高不大。尽管如此，用BN训练的模型仍然有较快的收敛速度。这一改进背后的原因是双重的:一方面，由于云的反射率和不透明度之间有很强的相关性，注意力地图有助于消除这两个任务之间的耦合;另一方面，FF是有利于预测一些区域的更详细的输出，如一些小块的云和有锋利边缘的云。图9显示了注意机制的有效性。我们可以看到，在被云覆盖的区域，它的注意地图的值更大，无论它是被薄云覆盖还是被厚云覆盖。因此，可以使用注意图来指导网络的训练，使网络集中在云覆盖的区域，获得更好的云检测结果。同时，没有注意的预测值小于有注意的预测值。

5.4.云图像组合

在这里插入图片描述

图10所示。一些云图像蒙太奇结果的例子。第一行显示来自图像集A的输入图像。第二行显示来自图像集B的输入图像。第三行显示结合图像集A的云风格和图像集B的背景生成的输出

该框架还可以用于另一个重要的应用:云图像组合，即将一张图像中的云移植到另一张背景图像中。这可以通过以下转换简单地实现:
在这里插入图片描述
其中 $I^A(x)$ 为背景图像集合a中的图像， $R^B_c(x)$ 和 $α^B(x)$ 为云图像集合B中的图像的预测云反射率和不透明度，I’(x)为生成的云组合输出。图10显示了我们的云蒙太奇生成结果的一些例子。在图10中，一些来自谷歌地球的高分辨率航空图像被用作背景图像，来自我们测试集的gf -1图像的云被用作前景云样式
上述过程可以看作是一种新的数据增强方法，它帮助我们生成了一些困难的例子。它可能有很大的潜力提高一些RS应用的性能，如遮挡目标检测，场景识别和图像分割

5.5.计算复杂度、参数和速度

在这里插入图片描述

表对比模型参数，flops和推断时间

我们使用三个不同的指标来比较我们的方法与其他基于cnn的云检测方法的计算复杂度、参数和速度。在表VII中，我们记录了模型参数(Params)的数量、浮点运算(FLOPs)的数量以及不同模型的推理时间。我们使用512×512像素的图像来计算FLOPs和推断时间，并在NvidiaGeForce RTX 2080 Ti显卡上进行测试。与其他方法相比，该方法参数较多，但推理时间与RS-Net[16]相当。这是因为我们的方法使用不同的分支来预测反射率、不透明度和注意图，这需要更多的参数和记忆。

6.讨论

虽然在三个卫星图像数据集上的实验结果证明了我们的方法的有效性，但它仍有一些局限性。
1)我们没有考虑阴影检测。由于阴影经常与云一起出现，在我们的框架中考虑阴影检测也很重要。实际上，在2中提出的模型可以简化为i (x)=[1−α(x)]R_b(x)，使R_c(x)=0。然后，我们的框架可以自然地扩展到阴影检测任务。
2)如图6最后一行所示，当图像中有雪时，我们的方法可能会产生错误的检测结果。这背后的原因可能是我们训练集的雪样本有限。为了提高在积雪覆盖区域的检测性能，我们可以简单地向训练集中添加更多的雪图像。
3)我们使用一种简单的数据合成方法来支持我们模型的训练。尽管我们的初步验证和取得了良好的结果，但我们的方法仍有很大的改进空间，特别是在数据合成方面。在我们未来的研究中，我们可能会设计一个更复杂的数据合成过程(例如，使用对抗训练的非均匀不透明度，我们已经获得了一些有前景的结果[58])来生成更真实的云图。

7.总结

我们提出了一种全新的RS图像云检测方法，它内在地融合了云成像机制，并在同一框架下联合处理了三个不同但相关的问题，如云检测、云覆盖评估和云去除。不同于以往将云检测视为像素级二进制分类问题的方法，我们将云检测重新表述为混合能量分离问题。在三个卫星图像数据集上的实验结果证明了该方法的有效性。此外，该框架还可以用于合成特定风格的云图像，这可以被视为一种新的数据增强方式，可能对许多RS应用的性能有很大的潜力，如遮挡物体的检测和识别

参考文献

[1] C. J. Stubenrauchet al., “Assessment of global cloud datasets fromsatellites: Project and database initiated by the GEWEX radiation panel,”Bull. Amer. Meteorolog. Soc., vol. 94, no. 7, pp. 1031–1049, 2013.
[2] R. R. Irish, J. L. Barker, S. N. Goward, and T. Arvidson, “Charac-terization of the Landsat-7 ETM+ automated cloud-cover assessment(ACCA) algorithm,”Photogramm. Eng. Remote Sens., vol. 72, no. 10,pp. 1179–1188, Oct. 2006.
[3] Z. Zhu and C. E. Woodcock, “Object-based cloud and cloud shadowdetection in landsat imagery,”Remote Sens. Environ., vol. 118,pp. 83–94, Mar. 2012.
[4] Z. Zhu, S. Wang, and C. E. Woodcock, “Improvement and expansionof the Fmask algorithm: Cloud, cloud shadow, and snow detectionfor Landsats 4–7, 8, and Sentinel 2 images,”Remote Sens. Environ.,vol. 159, pp. 269–277, Mar. 2015.
[5] Z. Li, H. Shen, H. Li, G. Xia, P. Gamba, and L. Zhang, “Multi-feature combined cloud and cloud shadow detection in GaoFen-1 widefield of view imagery,”Remote Sens. Environ., vol. 191, pp. 342–358,Mar. 2017.
[6] Q. Zhang and C. Xiao, “Cloud detection of RGB color aerial pho-tographs by progressive refinement scheme,”IEEE Trans. Geosci.Remote Sens., vol. 52, no. 11, pp. 7264–7275, Nov. 2014.
[7] G. J. Jedlovec, S. L. Haines, and F. J. La Fontaine, “Spatial and temporalvarying thresholds for cloud detection in GOES imagery,”IEEE Trans.Geosci. Remote Sens., vol. 46, no. 6, pp. 1705–1717, Jun. 2008.
[8] Z. An and Z. Shi, “Scene learning for cloud detection on remote-sensingimages,”IEEE J. Sel. Topics Appl. Earth Observ. Remote Sens.,vol.8,no. 8, pp. 4206–4222, Aug. 2015.
[9] P. Li, L. Dong, H. Xiao, and M. Xu, “A cloud image detection methodbased on SVM vector machine,”Neurocomputing, vol. 169, pp. 34–42,Dec. 2015.
[10] G. N. K., B. M., and S. N. George, “Reconstruction of cloud-contaminated satellite remote sensing images using kernel PCA-basedimage modelling,”Arabian J. Geosci., vol. 9, no. 3, p. 239,Mar. 2016.
[11] F. Xie, M. Shi, Z. Shi, J. Yin, and D. Zhao, “Multilevel cloud detectionin remote sensing images based on deep learning,”IEEE J. Sel. TopicsAppl. Earth Observ. Remote Sens., vol. 10, no. 8, pp. 3631–3640,Aug. 2017.
[12] X. Wu and Z. Shi, “Utilizing multilevel features for cloud detection onsatellite imagery,”Remote Sens., vol. 10, no. 11, p. 1853, 2018.
[13] Z. Yanet al., “Cloud and cloud shadow detection using multilevel featurefused segmentation network,”IEEE Geosci. Remote Sens. Lett., vol. 15,no. 10, pp. 1600–1604, Oct. 2018.
[14] Y. Zhan, J. Wang, J. Shi, G. Cheng, L. Yao, and W. Sun, “Distinguishingcloud and snow in satellite images via deep convolutional network,”IEEE Geosci. Remote Sens. Lett., vol. 14, no. 10, pp. 1785–1789,Oct. 2017.
[15] A. Francis, P. Sidiropoulos, and J.-P. Muller, “CloudFCN: Accurate androbust cloud detection for satellite imagery with deep learning,”RemoteSens., vol. 11, no. 19, p. 2312, 2019.
[16] J. H. Jeppesen, R. H. Jacobsen, F. Inceoglu, and T. S. Toftegaard,“A cloud detection algorithm for satellite imagery based ondeep learning,”Remote Sens. Environ., vol. 229, pp. 247–259,Aug. 2019.
[17] K. Xu, K. Guan, J. Peng, Y. Luo, and S. Wang, “DeepMask: An algo-rithm for cloud and cloud shadow detection in optical satellite remotesensing images using deep residual network,” 2019,arXiv:1911.03607.
[Online]. Available: http://arxiv.org/abs/1911.03607
[18] D. E. Zongker, D. M. Werner, B. Curless, and D. H. Salesin, “Envi-ronment matting and compositing,” inProc. 26th Annu. Conf. Comput.Graph. Interact. Techn. - SIGGRAPH, 1999, pp. 205–214.
[19] A. Levin, D. Lischinski, and Y. Weiss, “A closed-form solution to naturalimage matting,”IEEE Trans. Pattern Anal. Mach. Intell., vol. 30, no. 2,pp. 228–242, Feb. 2008.
[20] N. Xu, B. Price, S. Cohen, and T. Huang, “Deep image matting,” inProc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jul. 2017,pp. 2970–2979.
[21] E. S. Gastal and M. M. Oliveira, “Shared sampling for real-time alphamatting,” inComputer Graphics Forum, vol. 29, no. 2. Hoboken, NJ,USA: Wiley, 2010, pp. 575–584.
[22] K. He, C. Rhemann, C. Rother, X. Tang, and J. Sun, “A globalsampling method for alpha matting,” inProc. CVPR, Jun. 2011,pp. 2049–2056.
[23] E. Shahrian, D. Rajan, B. Price, and S. Cohen, “Improving imagematting using comprehensive sampling sets,” inProc. IEEE Conf.Comput. Vis. Pattern Recognit., Jun. 2013, pp. 636–643.
[24] Y. Zheng and C. Kambhamettu, “Learning based digital matting,” inProc. IEEE 12th Int. Conf. Comput. Vis., Sep. 2009, pp. 889–896.
[25] Q. Chen, D. Li, and C.-K. Tang, “KNN matting,”IEEE Trans. PatternAnal. Mach. Intell., vol. 35, no. 9, pp. 2175–2188, Sep. 2013.
[26] G. Chen, K. Han, and K.-Y.-K. Wong, “TOM-Net: Learning transparentobject matting from a single image,” inProc. IEEE/CVF Conf. Comput.Vis. Pattern Recognit., Jun. 2018, pp. 9233–9241.
[27] D. Bahdanau, K. Cho, and Y. Bengio, “Neural machine translation byjointly learning to align and translate,” 2014,arXiv:1409.0473.
[Online].Available: http://arxiv.org/abs/1409.0473
[28] S. Zhang, J. Yang, and B. Schiele, “Occluded pedestrian detectionthrough guided attention in CNNs,” inProc. IEEE/CVF Conf. Comput.Vis. Pattern Recognit., Jun. 2018, pp. 6995–7003.
[29] Z. Wojnaet al., “Attention-based extraction of structured informationfrom street view imagery,” 2017,arXiv:1704.03549.
[Online]. Available:http://arxiv.org/abs/1704.03549
[30] K. Xuet al., “Show, attend and tell: Neural image caption genera-tion with visual attention,” inProc. Int. Conf. Mach. Learn., 2015,pp. 2048–2057.
[31] P. Andersonet al., “Bottom-up and top-down attention for imagecaptioning and visual question answering,” 2017,arXiv:1707.07998.
[Online]. Available: http://arxiv.org/abs/1707.07998
[32] A. Cazorla, F. J. Olmo, and L. Alados-Arboledas, “Development of a skyimager for cloud cover assessment,”J. Opt. Soc. Amer. A, Opt. ImageSci., vol. 25, no. 1, p. 29, Jan. 2008.
[33] M. P. Souza-Echer, E. B. Pereira, L. S. Bins, and M. A. R. Andrade,“A simple method for the assessment of the cloud cover state in high-latitude regions by a ground-based digital camera,”J. Atmos. Ocean.Technol., vol. 23, no. 3, pp. 437–447, Mar. 2006.
[34] I. Eberhardtet al., “Cloud cover assessment for operational cropmonitoring systems in tropical areas,”Remote Sens., vol. 8, no. 3, p. 219,2016.
[35] C.-H. Lin, P.-H. Tsai, K.-H. Lai, and J.-Y. Chen, “Cloud removal frommultitemporal satellite images using information cloning,”IEEE Trans.Geosci. Remote Sens., vol. 51, no. 1, pp. 232–241, Jan. 2013.
[36] H. Shen, H. Li, Y. Qian, L. Zhang, and Q. Yuan, “An effective thincloud removal procedure for visible remote sensing images,”ISPRS J.Photogramm. Remote Sens., vol. 96, pp. 224–235, Oct. 2014.
[37] K. Enomotoet al., “Filmy cloud removal on satellite imagerywith multispectral conditional generative adversarial nets,” 2017,arXiv:1710.04835.
[Online]. Available: http://arxiv.org/abs/1710.04835
[38] Z. K. Liu and B. R. Hunt, “A new approach to removing cloud coverfrom satellite imagery,”Comput. Vis., Graph., Image Process., vol. 25,no. 2, pp. 252–256, Feb. 1984.
[39] X. Pan, F. Xie, Z. Jiang, and J. Yin, “Haze removal for a single remotesensing image based on deformed haze imaging model,”IEEE SignalProcess. Lett., vol. 22, no. 10, pp. 1806–1810, Oct. 2015.
[40] F. Xie, J. Chen, X. Pan, and Z. Jiang, “Adaptive haze removal for singleremote sensing image,”IEEE Access, vol. 6, pp. 67982–67991, 2018.
[41] J. Li, Q. Hu, and M. Ai, “Haze and thin cloud removal via sphere modelimproved dark channel prior,”IEEE Geosci. Remote Sens. Lett., vol. 16,no. 3, pp. 472–476, Mar. 2019.
[42] X. Li, L. Wang, Q. Cheng, P. Wu, W. Gan, and L. Fang, “Cloudremoval in remote sensing images using nonnegative matrix factorizationand error correction,”ISPRS J. Photogramm. Remote Sens., vol. 148,pp. 103–113, Feb. 2019.
[43] K. Steffenet al., “The estimation of geophysical parameters usingpassive microwave algorithms,”Microw. Remote Sens. Sea Ice, vol. 68,pp. 201–231, Jan. 1992.
[44] C. Swift and D. Cavalieri, “Passive microwave remote sensing forsea ice research,”Eos, Trans. Amer. Geophys. Union, vol. 66, no. 49,pp. 1210–1212, 1985.
[45] A. Krizhevsky, I. Sutskever, andG. E. Hinton, “ImageNet classificationwith deep convolutional neural networks,” inProc. Adv. Neural Inf.Process. Syst., 2012, pp. 1097–1105.
[46] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning forimage recognition,” inProc. IEEE Conf. Comput. Vis. Pattern Recognit.(CVPR), Jun. 2016, pp. 770–778.
[47] Z. Zou, Z. Shi, Y. Guo, and J. Ye, “Object detection in 20 years: Asurvey,” 2019,arXiv:1905.05055.
[Online]. Available: http://arxiv.org/abs/1905.05055
[48] R. Girshick, “Fast R-CNN,” inProc. IEEE Int. Conf. Comput. Vis.(ICCV), Dec. 2015, pp. 1440–1448.
[49] W. Liuet al., “Ssd: Single shot multibox detector,” inProc. Eur. Conf.Comput. Vis.Berlin, Germany: Springer, 2016, pp. 21–37.
[50] Z. Zou and Z. Shi, “Random access memories: A new paradigm fortarget detection in high resolution aerial remote sensing images,”IEEETrans. Image Process., vol. 27, no. 3, pp. 1100–1111, Mar. 2018.
[51] H. Lin, Z. Shi, and Z. Zou, “Fully convolutional network with taskpartitioning for inshore ship detection in optical remote sensing images,”IEEE Geosci. Remote Sens. Lett., vol. 14, no. 10, pp. 1665–1669,Oct. 2017.
[52] Z. Shi and Z. Zou, “Can a machine generate humanlike languagedescriptions for a remote sensing image?”IEEE Trans. Geosci. RemoteSens., vol. 55, no. 6, pp. 3623–3634, Jun. 2017.
[53] M. D. Zeiler and R. Fergus, “Visualizing and understanding convolu-tional networks,” inProc. Eur. Conf. Comput. Vis.Berlin, Germany:Springer, 2014, pp. 818–833.
[54] S. Ioffe and C. Szegedy, “Batch normalization: Acceleratingdeep network training by reducing internal covariate shift,” 2015,arXiv:1502.03167.
[Online]. Available: http://arxiv.org/abs/1502.03167
[55] D. P. Kingma and J. Ba, “Adam: A method for stochastic opti-mization,” 2014,arXiv:1412.6980.
[Online]. Available: http://arxiv.org/abs/1412.6980
[56] S. Fogaet al., “Cloud detection algorithm comparison and validationfor operational landsat data products,”Remote Sens. Environ., vol. 194,pp. 379–390, Jun. 2017.
[57] K. Simonyan and A. Zisserman, “Very deep convolutional networksfor large-scale image recognition,” 2014,arXiv:1409.1556.
[Online].Available: http://arxiv.org/abs/1409.1556
[58] Z. Zou, W. Li, T. Shi, Z. Shi, and J. Ye, “Generative adversarial trainingfor weakly supervised cloud matting,” inProc. IEEE/CVF Int. Conf.Comput. Vis. (ICCV), Oct. 2019, pp. 201–210