MLFF-GAN: A Multilevel Feature Fusion WithGAN for Spatiotemporal Remote Sensing Images

最新推荐文章于 2024-09-15 09:47:15 发布

Click-N

最新推荐文章于 2024-09-15 09:47:15 发布

阅读量807

点赞数

文章标签：生成对抗网络人工智能神经网络

本文链接：https://blog.csdn.net/Ka_kaen/article/details/133544005

版权

一：论文阅读：

MLFF-GAN:一种基于GAN的多层次特征融合时空遥感图像

摘要：

摘要:由于技术和预算的限制，单个遥感卫星的传感器往往难以同时具有高时高空间分辨率。在本文中，我们提出了一种新的多层特征融合与生成对抗网络(MLFF-GAN)来生成融合HTHS图像。MLFF-GAN主要采用类似u -net的架构，其生成器由特征提取、特征融合和图像重建三个阶段组成。在特征提取与重构阶段，生成器采用编解码结构提取三组多层特征(multilevel feature, mlf)，可以应对高分辨率图像与低分辨率图像之间的巨大分辨率差异。在特征融合阶段，设计了自适应实例归一化(AdaIN)块来学习多时段图像之间的全局分布关系，使用注意模块(AM)来学习小区域变化的局部信息权重。在两个Landsat和中分辨率成像光谱仪(MODIS)数据集上对所提出的MLFF-GAN进行了测试。将一些最先进的算法与MLFF-GAN进行了全面比较。

我们还进行了烧蚀实验，以测试不同子模块在MLFF-GAN中的有效性。实验结果和烧蚀分析表明，与其他方法相比，该方法具有更好的性能。代码可在https://github.com/songbingze/MLFF-GAN上获得。

索引术语:自适应实例归一化(AdaIN)，生成对抗网络(GAN)，空间注意机制，U-net。

介绍：

随着对地观测技术的不断发展，对时间序列遥感图像的需求越来越大。然而，由于技术和预算限制，单一卫星产品往往无法同时获得高时间和高空间(HTHS)分辨率。高空间分辨率的卫星通常意味着较长的重访周期。相反，重访周期短的卫星往往只能提供低空间分辨率。人们自然会认为，通过多平台卫星数据的结合，可以满足对HTHS数据的这一要求。例如，Landsat-8和中分辨率成像光谱辐射计(MODIS)波段具有类似的光谱响应函数。理论上，Landsat影像(高空间分辨率和低时间分辨率，30 m, 16天)和MODIS影像(低空间分辨率和高时间分辨率，500 m, 1天)可以融合生成HTHS影像(30 m, 1天)。融合地表细节的类陆地卫星图像可用于变化检测、土地覆盖分析、水资源监测等。通常，时空融合需要n对高分辨率和低分辨率图像以及预测时刻的m幅低分辨率图像来获得m幅高分辨率图像。基于这种情况，近年来提出了大量的时空融合算法，主要分为三类，基于权重的方法[1]-[5]，基于解混合的方法[6]-[12]，以及基于学习的方法[浅学习[13]-[23]，如贝叶斯学习和深度学习[24]-[37]，如卷积神经网络(CNN)]。

基于权重的方法假设地表反射率的变化可以通过对时空影像像元的加权汇总来预测。典型的基于权重的方法是时空自适应反射融合模型(STARFM)[1]算法。STARFM根据滑动窗口中像素的频谱、距离和时间确定权重。增强型STARFM (ESTARFM)[2]考虑混合像素和纯像素之间的差异来修改STARFM的权重。ESTARFM的改进版本(mESTARFM)[3]通过搜索相似像素的新方案提高了融合的精度。时空自适应映射反射率变化算法(Spatial-Temporal Adaptive Algorithm for mapping Reflectance Change, STAARCH)[4]利用多幅低分辨率图像检测反射率变化，从而更准确地预测局部光谱变化。拟合(RM拟合)、空间滤波(SF)和残差补偿(RC)，简称fit - fc[5]，采用回归模型对两个观测值进行拟合和关联，然后通过空间滤波去除块伪影，最后采用残差补偿保持光谱信息。

基于权重的方法的优点是:1)它不需要从许多外部数据中学习大量的参数，所以在大多数情况下是快速和稳定的;2)它在符合齐次假设的区域表现良好。缺点是:1)在融合中假设均匀区域，多数情况下不够合理;2)重构细节的能力不够强，其权重模型类似于低通滤波器，容易对部分细节进行平滑处理。

基于解混的方法假设低分辨率图像中的像素是由高分辨率端元的线性组合组成的。这些方法大多使用像素预分类作为端元。多传感器多分辨率技术(MMT)[6]将高分辨率图像分类为端元，评估低分辨率图像的丰度，最后通过丰度不变量假设重建图像。一种时空数据融合方法(STDFA)[7]假设土地覆盖类型随时间保持不变。将解混得到的两幅相邻高分辨率图像的反射率变化赋值给低分辨率图像。在STDFA的基础上，增强型时空数据融合模型(enhanced spatial and temporal data fusion model, ESTDFM)[8]对分类算法进行了强化，并增加了滑动窗口和时间权值，增强了算法的预测能力。针对STDFA中传感器差异和空间变异性的问题，改进STDFA (ISTDFA)[9]采用线性回归消除传感器差异，采用加权线性混合模型调整地表反射率的空间变异性。灵活时空数据融合(FSDAF)[10]结合了解混和加权两种方法。该算法计算均匀区域的光谱变化，通过插值算法预测空间变化，最后利用光谱特征和空间特征加权和得到高分辨率图像。SFSDAF(一种纳入亚像元类分数变化信息的增强型FSDAF)[11]纳入了亚像元类分数变化信息，可以更准确地把握光谱信息的变化。在FSDAF 2.0[12]中，通过边缘检测和变化检测，获得了更多的纯像素，使得解混过程更加准确。同时，还采用变化检测生成权值，从而得到更准确的预测结果。基于解混的方法具有非常明确的物理含义。它把核聚变作为一个逆问题，是不适定的。这种方法可以在一定程度上重建高空间分辨率图像中的突变和细节。然而，这些方法更多地强调谱域与空间域的关系，而不是时域的关系。在时域中，他们通常假定不变量是丰富的。这种丰度不变假设严重削弱了该方法的能力，使得融合过程经常出现端元分类导致的块效应。

基于学习的方法是一种数据驱动的方法，使用现有的数据集来训练模型，并找到空间和时间图像之间的关系。稀疏表示或字典学习方法是典型的浅学习方法，如基于稀疏表示的时空反射融合模型(SPSTFM)[13]。

对这类方法进行了许多改进，例如减少图像引用[14]，增加正则化[15]，以及使用结构稀疏性[16]，[17]。贝叶斯方法利用观测数据计算最大后验概率来解决时空融合问题。

Li等[18]和Huang等[19]分别采用协方差函数和低通滤波来描述输入的高空间分辨率图像与低空间分辨率图像之间的关系。[20] -[22]从长时间序列中获取信息，分别采用像素解混、联合高斯分布、卡尔曼滤波等方法从时间序列图像中通过贝叶斯概率对目标图像进行滤波。

其他研究，如[23]，使用贝叶斯选择训练字典。基于深度学习的方法通常使用CNN，在大数据的支持下，CNN具有强大的特征提取能力[24]，[25]。通过网络结构和损失函数的设计，可以提高对时空融合的适应性，如使用深度CNN (STFDCNN)的时空卫星图像融合[26]、深度卷积时空融合网络(DCSTFN)[27]、增强型DCSTFN[28]、使用两流卷积神经网络(StfNet)的时空融合问题[29]、偏差驱动的时空融合模型(BiaSTF)[31]以及空间、传感器、时空融合(SSTSTF)[34]。

近年来，生成式对抗网络(generative adversarial network, GAN)方法作为深度学习的一个分支，在图像生成[38]-[40]、风格迁移[41]、[42]、超分辨率重建[43]、[44]等诸多领域取得了巨大成功。GAN方法在图像生成领域显示出许多优点。在时空融合中，GAN方法也已经有了一些应用。近年来，基于GAN的遥感图像时空融合方法(STFGAN)[35]继承了基于GAN (SRGAN)的超分辨率思想[43]，将时空融合作为一个超分辨率问题来解决。基于GAN的时空融合模型(GAN- stfm)[36]设计了一种更灵活的基于条件GAN的图像预测方法。CycleGANSTF[37]将图像融合作为一个数据增强问题，然后选择信息量最大的图像作为融合结果。

基于gan的方法在时空融合中表现出很好的性能。然而，时空融合有许多特殊性，需要进一步研究。生成器或鉴别器的结构、损失函数、特征提取或融合方案都需要适应时空融合。

遥感时空融合的难点主要来自三个方面:1)在时间维度上，地物变化(如洪水、物候等)的不确定性较大，土地类型也可能发生变化，难以通过相邻时间的影像进行预测;2)在空间维度上，高分辨率图像与低分辨率图像的巨大差异给细节纹理的重建带来很大困难;3)对于不同的传感器，在成像过程中不可避免地存在系统误差，如成像条件(大气或太阳天顶角)、器件差异(光谱响应或模传递函数)等。

这三个困难使得时空融合成为一个非常具有挑战性的问题。大多数模型驱动的方法，如加权法、基于解混合的方法等，只使用非常少的内部数据量和非常有限的数据先验，无法同时综合解决三个难点。因此，利用更多的外部数据集来学习更多的先验和特征是非常必要的。利用基于学习的方法，可以将时间、空间和传感器维度上的特征进行适当有效的组织。

然而，现有的数据驱动或基于学习的方法并没有为遥感时空融合的三个难点提供非常有针对性的改进方案。

在本文中，我们设计了一种GAN帧的编解码结构来学习用于图像融合的多层特征(mlf)，并具体而有针对性地考虑了时空融合的三个难点。该方案考虑了MLF融合GAN (MLFF-GAN)结构、巨大的分辨率差异、显著的特征变化以及传感器的系统误差等问题。

设计了一个注意力模块(AM)来处理图像局部时间差的变化，并引入自适应实例归一化(AdaIN)[45]来学习系统误差或全局差;同时，我们将生成网络的骨干结构构建为类似u -net的CNN，以应对巨大的分辨率差异。这种综合结构提高了MLFF-GAN融合的特征学习能力和泛化能力。我们还进行了对比实验和烧蚀实验来验证MLFF-GAN融合中不同部位的有效性。

剩下的内容组织如下:

在第二节中，详细介绍了MLFF-GAN的基本结构和损失函数。第三节通过对比实验和烧蚀实验验证了本文提出的方法。第四部分是本文的结束语。

方法

如图1所示，我们通过t1时刻的一对图像F1、C1和t2时刻的低分辨率图像C2来预测t2时刻的高分辨率图像F2。一般来说，在预测阶段，t1和t2是两个接近但不同的时间。与其他GAN模型类似，如图2所示，MLFFGAN由生成器和鉴别器两部分组成。

生成器负责通过输入数据F1、C1和C2生成融合图像，鉴别器对生成的图像和真实图像进行判断。

生成器和鉴别器交替训练，以提高它们的能力。训练后，我们使用生成器来预测融合图像，因此生成器是该方法的关键。该生成器被设计成类似u网的结构，分为三个阶段:特征提取、特征融合和图像重建。鉴别器是一个简单的CNN

图2。MLFF-GAN的总体框架。生成器负责生成图像，鉴别器负责识别图像是真还是假。

下面，将详细讨论拟议的MLLF-GAN。

A:生成对抗网络

在说明所提出的MLFF-GAN之前，我们首先需要简单回顾传统GAN的特性。GAN最早是在文献[38]中提出的，它由发生器G和鉴别器d组成，发生器G学习噪声z到真实数据x的复杂映射关系，并试图将噪声pz(z)的分布映射到真实数据pdata(x)的分布。鉴别器D通过训练判别生成的数据G(z)与真实数据x的差异，输出0-1范围的矩阵，判断数据的真假。

对于时空融合问题，由于输入信息的特殊性和保证GAN训练的稳定性，MLFF-GAN采用的GAN损失为最小二乘GAN (LSGAN)。LSGAN的目标函数为如下，其中a b c是常数。当b−c = 1和b−a = 2时，目标函数等价于Pearson X2散度。

在提出的MLFF-GAN中，我们使用条件LSGAN的目标函数作为其基本GAN框架。发电机的输入为F1、C1和C2。同时，利用鉴别器保证输出图像的质量。此外，MLFF-GAN不仅受到鉴别器的约束，还受到不同损失函数组合的约束。本节的其余部分将解释MLFF-GAN的发生器、鉴别器和损失函数的设计。

B：生成器

MLFF-GAN的发生器由三个阶段组成:特征提取、特征融合和图像重建的总体结构如图3所示。我们可以将这三个阶段理解为一个新的U-net框架，它由收缩路径(左侧，特征提取)，特征融合(中间部分)，还有一条扩张路径(右侧，重建)。编解码(提取和重建)结构负责空间维度的分辨率增强。特征融合部分分为全局信息变换和局部变化权值学习两个模块。全局信息转换模块主要处理AdaIN的全局分布和系统误差。局部变化权值模块主要处理AM在时间维度上的局部特征变化。这些模块和编解码结构可以作为解决上述三个时空融合难题的解决方案.

特征提取阶段

在特征提取阶段，将多个降采样和卷积块连接起来，提取多源图像的时空特征。深度CNN的优点之一是它可以比传统方法更广泛、更深入地提取图像特征。由于U-net是对称结构，提取和重构双方都使用基于残差网络的残差块(ResNet)[46]作为基本块。残块可以有效地防止梯度分散和梯度爆炸，从而可以顺利地保证模型的训练。与ResNet不同的是，generator中的残差块去掉了批处理归一化，以获得更好的生成图像质量[47]

如图3所示，特征提取阶段提取三组特征:一组空间特征AF1，两组时间特征AC1和AC2，其中AF1 = {AF1 i}N i=0, AF1 = {AF1 i}N i=0, AF2 = {AF2 i}N i=0, N为层数。为了获得不同层次的特征，框架使用残差下采样块，即在残差块后面增加一个步长为2的卷积层。网络的多层数是根据高分辨率图像和低分辨率图像的分辨率放大倍数确定的。以Landsat和MODIS为例，分辨率之比为500/30≈24，则下采样块数为4，如图4(a)所示。利用CNN和下采样，通过特征提取网络得到mlf。本设计对高分辨率图像进行分解，并与同级别的低分辨率图像进行信息交换，为后续的融合阶段和重建阶段提供特征。

特征融合阶段

在特征融合阶段，通过全局信息变换和局部变化权值学习对三个输入图像的mlf进行融合，如图3(中间部分)所示。首先，利用AF1和AC2进行全局信息变换，针对光谱差异或成像条件差异等系统误差进行设计。其次，利用AC1和AC2来学习局部变化信息的权重，这是针对土地覆盖突变或物候变化而设计的。

为了捕捉不同图像中的系统性和全局性特征，全局信息变换使用AdaIN[48]将C2的mlf的全局分布转换为F1的mlf。AdaIN最初用于GAN中的样式转换。公式表示为AdaIN(x, y) = σ (y) x−μ(x) σ (x) + μ(y)(3)，其中μ(x)为x的均值，σ (x)为x的方差。通过x和y的均值和方差，AdaIN对x进行样式变换，然后将y的样式转换为x。在全局信息变换中，x为AF1的mlf, y为AC2的mlf。通过AdaIN将F1的纹理和光谱分布的总体特征转化为C2的纹理和光谱;同时保留F1中各层特征的空间详细信息。

如图3和图4(c)所示，变换后的mlf记为:{{AF1 i}N i=0。

AM负责学习时间维度的局部变化。如图3和图4(d)(中间部分)所示，AM利用空间注意机制，从AC1和AC2中学习权重，将AF1hat修改为AF2hat。利用深度学习的反向传播机制，网络对0 - 1范围内的每一级i学习权重映射M = {Mi}N i=0，以分配特征的显著性。权重越大，变化越大，分配给AC2的比例越大;权重越小，变化越小，分配给A + F1的比例越大。对于af2i的每一层，公式定义为:af2i = Mi ac2i +(1−Mi) af1i(4)，其中Mi是MLFFGAN中第i层的权值图，其中i = 0,1,2,3,4。每一层特征对应一个权重图。权重映射是由一个输出通道和sigmoid函数的单层卷积输出的单级0-1矩阵。利用MLF af2和MLF AC2的末级特征ac24引导上采样重构网络。

图像重建阶段

对于图像重建阶段，重建网络示意图如图3和图4(b)所示(右侧)。

提取特征后，在融合阶段将AF1、AC1、AC2融合到新的精细特征AF2中。将AF2重构为最终的融合图像。

重构阶段与提取阶段是对称的，采用U-net结构。它由卷积块和上采样块组成。在上采样过程中，有两组输入流。第一组是t2时刻低空间分辨率图像下采样编码器特征的最后一个特征(特征AC2 4)，第二组是AdaIN和AM生成的融合特征AF2。

结合两个输入，通过连续上采样重建最终图像。ac24和上采样解码器产生的一系列新特征被认为是预测时间t2的高分辨率图像的特征。同时，将AF2作为参考特征，与上采样解码器生成的特征相连接，输入到上采样残差块中，如图4(b)所示。

与提取网络类似，重构网络也使用残差块来保证梯度下降的稳定性。在残差块前加入反褶积层，形成上采样残差块，使特征尺寸增大一倍。重构网络中每个块的卷积输入是来自不同模块的特征，然后通过重构过程，输出图像将继承不同层次的特征。该架构有两个优点:1)对于较大的分辨率差异，下采样和上采样之间的空间匹配关系有助于分辨率的增强;2)在预测不同尺度的中分辨率和高分辨率图像的特征时，更有利于图像重建过程中学习不变特征和动态特征。

C:鉴别器

如图5所示，MLFF-GAN的鉴别器是一个简单的二元CNN，与PatchGAN基本相同[41]。与文献[38]中的传统判别器不同，在MLLF-GAN中，判别器用于判断图像patch是真实观测图像还是融合图像。

鉴别器的每个块由多个卷积层、实例归一化层[49]和leaky rectified linear unit (LeakyReLU)激活函数组成。

卷积运算使接受野的大小保持在70 × 70。在鉴别器的训练阶段，当其输入为F2和C2时，期望得到全真矩阵，当其输入为F2和C2时，期望得到全假矩阵。该鉴别器的参数比生成器少得多，因为它只需要通过深度网络进行抽象和泛化。鉴别器提供的对抗函数可以帮助生成器获得更高质量的结果。此外，对于单幅遥感图像中相对位置关系较弱的情况，patch识别方法具有一定的优势。

Loss Function

所提出的MLFF-GAN发生器的损失函数主要由两种类型组成:GAN损失(LGAN)和图像内容损失。图像内容损耗包括L1损耗、频谱损耗和结构损耗。

GAN损耗与LSGAN中的相应部分相同，记为

LGAN更像是一个传统的损失函数，它可以保证输出图像数据集的积分分布与输入图像数据集的积分分布相同。

鉴别器的目的是识别生成的图像是真还是假，因此LGAN(D)是鉴别器的最终损失。但是为了保持对生成图像的约束，除了LGAN(G)外，还设计了对图像本身的损失，以保证生成图像的真实性。我们注意到有很多方法[28]，[35]，[36]利用自设计预训练网络的特征计算的感知损失来保证图像生成的质量。同样，在自然图像的风格迁移和超分辨率[43]，[51]，[52]中，经常使用预训练的VGG网络的特征来计算感知损失，以获得更好的图像结果。在实验中，我们发现利用预训练的VGG特征设计的感知损失使得图像的整体光谱和纹理发生了很大的变化，因为自然图像和卫星图像在本质上有很大的不同。此外，利用自设计预训练网络的特征设计的感知损失生成的图像与利用图像内容的损失即MLFF-GAN中的损失生成的图像几乎相同。尽管如此，利用图像内容的损失生成的图像可以更好地进行定量评价。因此，我们的损失函数是直接在图像上计算的，而不是像感知损失函数这样的特征。

利用L1损耗使生成图像与生成图像在同一像素位置的值相等，如(7)所示。为了获得生成遥感图像的光谱真实性和结构真实性，分别计算真实图像与生成图像之间的余弦相似度和多尺度结构相似度(MS-SSIM)[53]。余弦相似度表示为(8)，MS-SSIM表示为(9)

式中，T为真实图像矩阵(如F2)， P为预测图像矩阵[如G(F1,C1,C2)]， · P为P范数，K为图像像素数，I为1的张量。式(9)中，N为最高尺度的编号，l j、c j、sj分别为第j尺度的亮度、对比度比较、结构比较。ν n， ξj， ν j为对应的权系数

最后，生成器的总损耗为

实验部分

本文设计了四部分实验来验证所提出的MLFF-GAN方法。首先，我们将MLFF-GAN与五种最先进的算法(FSDAF[10]、BiaSTF[31]、增强型DCSTFN (EDCSTFN)[28]、GAN-STFM[36]和SSTSTF[34])进行了比较，以证明其有效性。其次，我们通过在发生器中烧蚀其结构的不同部分来展示MLFF-GAN中不同部分的功能。第三，我们还测试了MFLL-GAN的两个图像输入场景，并将其与三个图像输入的结果进行了比较。最后，讨论了网络训练和预测的计算量和时间消耗。

除了GAN-STFM算法[36]外，还将时间附近的图像对分成一组。在CIA数据集中，训练数据为11组，由前10对时间图像组成，测试数据为另外5组，由后6对时间图像组成。一组图像中的两对图像在时间上相邻。与CIA数据集类似，在LGC数据集中，训练数据为9组，测试数据为另外4组。在训练阶段，允许使用后期的图像对作为已知图像，而允许使用前一时期的低分辨率图像作为预测时的输入MODIS图像。

对于MLFF-GAN发生器，由于Landsat图像与MODIS图像的比例比约为16，因此下采样特征提取和上采样图像重建的网络为四层。发生器的输入是一个六波段图像。下采样解码中每个块的通道数分别为16、32、64、128和256。与U-net类似，上采样的数字为256、128、64、32和16。此外，输出也是六波段图像。

对于MLFF-GAN鉴别器，输入为低分辨率图像和高分辨率图像，输入频带总数为12个，(将C2和生成的高分辨图像一起输入到鉴别器中)。输出是0-1范围内的矩阵，值越接近1，图像越真实。

实验采用4个评价指标:平均绝对误差(MAE)、均方根误差(RMSE)、光谱角映射器(SAM)[54]和SSIM指数[55]。MAE和RMSE是评估预测与实际情况之间总体差异的指标。均方根误差对异常值更敏感。使用SAM来评估结果的光谱失真程度。SAM值越大，光谱差越大。SSIM用于测量预测结果与真实值之间的SSIM。SSIM值越高，表示两幅图像在纹理结构上越相似。

参数α， β， γ和δ in(10)的值将影响所提出的融合方法的性能。它们是两种类型的损耗，GAN损耗和图像内容损耗。参数α是GAN损失的权重，它保持了图像的真实性，具体体现在图像的纹理清晰度上。如果没有α，融合图像将变得模糊，并且缺少一些细节。参数β、γ和δ是图像内容损失的权重。利用β，融合图像不仅具有全局统计意义上的估计，而且具有相应的局部特征。γ将确保融合图像与输入图像之间的频谱相似度。δ将确保融合图像与输入图像之间纹理结构的相似性。

在LGAN(G)、L1、Lspectrum和Lstructure四种损失中，L1损失是必不可少的，因为它直接计算了预测图像与目标图像之间的差异。

其他三个损失是辅助的，使结果更好。

由于这四种损耗具有一定的相关性，并且L1损耗是必不可少的，我们设{α = 1 × 10−1,1 × 10−2,1 × 10−3}，β = 1， γ = {0,0.5, 1,1.5, 2}， δ ={0,0.5, 1,1.5, 2}，进行了75组实验，观察α、γ和δ对结果的影响。定量指标评价如图6所示。GAN损失对生成图像质量的贡献由不同α值的生成图像显示在图7中。

综合考虑定量指标和目视结果，设(10)中的参数为:α = 0.01， β = γ = δ = 1。

对于BiaSTF、GAN-STFM、SSTSTF和MLFF-GAN，训练学习率设置为2 × 10−4，对于EDCSTFN设置为1 × 10−3。在训练数据中，图像的裁剪间隔为200像素，模型的训练代数为200 epoch。

C:实验结果与分析

在section III-C1和C2中，我们使用MAE、RMSE、SAM和SSIM这四个指标来评价实验结果定量;同时，我们还通过视觉质量对比验证了所提出的方法。

1)对比实验:选择FSDAF、BiaSTF、EDCSTFN、GAN-STFM、SSTSTF五种方法进行对比。FSDAF是一种基于权重和解混的算法，作为一种非深度学习方法，它表现出了良好的性能。BiaSTF、EDCSTFN、GAN-STFM和SSTSTF是基于深度学习的方法。BiaSTF和EDCSTFN使用CNN的架构。GAN-STFM采用gan的架构。SSTSTF是一个多级网络，它由两个CNN网络和一个GAN网络组成。对于FSDAF, EDCSTFN, SSTSTF和MLFF-GAN，输入数据是预测时的低分辨率图像和一对最近的低高分辨率图像。对于BiaSTF，多一对参考图像作为输入。对于GAN-STFM，输入数据是预测时的低分辨率图像和最近的高分辨率图像。需要注意的是，SSTSTF方法与原文略有不同。

为了与我们的实验进行比较，将其原论文的SSTSTF中的四波段图像改为六波段图像。此外，我们注意到GAN-STFM算法只需要两个输入图像。表1和表2分别给出了六种算法在CIA数据集和LGC数据集上的定量指标评价。对于表1所示的CIA数据集，在大多数情况下，所提出的MLFF-GAN表现出更好的性能。

然而，FSDAF算法也表现出了一些良好的性能，在某些情况下，其定量指标超过了一些深度学习方法。我们认为有两个原因:第一，CIA数据集中的特征很明显，所以像素很容易被分类到正确的类别中。对于FSDAF方法，分类是其光谱解混的末端成员，因此CIA数据集对FSDAF更友好。其次，CIA数据集的数据量相对较小，使得深度学习算法容易过拟合。此外，少量数据不利于EDCSTFN或GAN-STFM等深度架构学习时空特征。

LGC数据集比CIA数据体积更大，因此在表2中，深度学习算法(EDCSTFN、GAN-STFM和MFLL-GAN)的性能优于FSDAF。SSTSTF在LGC数据集中表现不佳。

我们认为上采样方法的不确定性导致这个结果

BiaSTF在这两个数据集上的表现都很差。在深度学习方法中，网络架构需要更适合时空融合，才能有更好的性能。时空融合是一个不适定问题，仅使用模型驱动方案和手工特征很难获得良好的性能。在训练数据大的情况下，参数丰富的深度学习可以找到图像不同分辨率之间的映射关系，从而降低经验模型的预测误差。相对而言，深度学习方法的整体性能优于非深度学习方法，特别是在表2中。

在表1和表2中，与其他方法相比，MFLL-GAN最明显的优势是SAM指数。在表2 LGC数据集SSIM索引对比实验结果中，MFLL-GAN的优势很小。由于GAN-STFM只使用了两个输入图像，所以在一定程度上性能上没有太大的优势。

图8和图9是不同方法的视觉比较。AdaIN和AM的设计允许所提出的MFLL-GAN从局部和全局特征检测不同区域的变化。图8(上)和图9(上)显示了不同算法的假色结果(波段4、3和2)的全局图像，图8(a)和图9(a)(下)显示了预测时间的真实Landsat图像。

图8和图9(中间)是全局图像中白色帧内的放大区域。图8(b) - (g)和图9(b) - (g)(下)为不同方法下的真实值与预测结果之间所有六个波段的绝对值差之和。图8(a)和图9(a)为参考时刻实像与当前时刻实像的差值图。在图8和图9中，请注意图8(a)和图9(a)(下)是t1和t2的差值，但图8(b) - (g)和图9(b) - (g)(下)是真实图像和预测图像之间的差值

a) 对局部突变特征的融合受益于AM模块的设计： AM通过提取和比较MODIS图像在参考时间和预测时间的特征来生成权重图。该权重用于确定在参考时间注入高分辨率图像的特征或在预测时间注入低分辨率图像的特征时的强度。对于局部变化较强的小区域，高分辨率图像在参考时间的特征权重较大。这样，在该区域的参考时间与高分辨率图像保持融合特征一致，没有明显的变化。例如，在图8(a)的底部，图像中的红色圆圈是深蓝色的，这说明变化很小。对于图8(b)（下）所示的FSDAF算法，最终成员的分类过程不能随动态特征自适应变化，因此当不变的像素被划分为错误的类时，这些区域的偏差会非常明显。我们可以观察到，通过图8(c)-(f)（底部）中的深度学习方法，在这些区域也有很大的误差。由于深度学习方法可能过于依赖所学习到的经验，图8(c)-(f)（底部）在红色圆圈区域有更明显的预测误差。MLFF-GAN在这些领域表现最好，因为它的AM减少了对未改变的特性的误判。红色圆圈区域的部分几乎所有方法都显示出明显的预测误差。虽然对于图8(g)中的MLFF-GAN，红色圆圈区域也预测了错误的变化，并且由于AM模块的约束，错误的预测大大减弱。对于GAN-STFM，由于只取两张图像作为输入，网络会在预测时间将低分辨率图像的信息一定分配到参考时间的高分辨率图像中。不同传感器造成的误差很容易保留，如图8(e)所示，与之前图像差异较小的红圆区域会有较大的预测误差。同样，在LGC数据集上，图9(b)-(f)的红色圆圈区域也显示了与CIA数据集相同的结果。MLFF-GAN在预测时间与参考时间差异较小的情况下，MLFF-GAN的效果较好。

对于局部差异较大的部分，参考时间的高分辨率特征的权重较小，而低分辨率特征的权重较大，使得融合特征在变化较大的区域内具有更多的低分辨率预测时间光谱信息。在LGC数据集的图9(a)（黄色圆圈区域）中，我们可以看到，图9(g)中的MLFF-GAN比图9(c)-(f)在较大的范围内产生了更好的结果。同样，在CIA数据集中的图8(a)（两个黄色圆圈）中，与图8(b)-(f)相比，图8(g)对差异较大的部分的预测误差较小。

b) 全局光谱纹理的重建受益于AdaIN：它保持高分辨率图像的mlf在总体分布（如均值和方差）上的一致。在CIA数据集的图8(b)-(g)（底部左半部分）中，我们可以清楚地看到，与其他算法相比，MLFF-GAN在全局分布中更类似于真实图像。此外，MLFF-GAN在图8(g)的预测误差图中也表现得更好。在图像发生大规模变化的情况下，如LGC，AdaIN的优势更为明显。我们可以看到，在图9(g)（左半部分）中，与图9(b)-(f)相比，总体预测误差较小，与真实图像基本相似。

2)消融研究：共4个消融实验：1）删除U-Net架构（CAC）中的复制和裁剪，在解码器最后一层融合，上采样直到图像生成；2）采用CAC策略，但不添加AM和AdaIN，只对MLF进行平均转移；3）采用CAC，添加AM；4）添加CAC、AM、AdaIN。图中。10和11为视觉质量比较，表III和表IV为定量比较。

结论：

本文提出了一种新的基于GANs的时空融合方法。所提出的MLFF-GAN综合考虑了三个难点，其生成器包括特征提取、特征融合和图像重建三个阶段。生成器的主干被设计为一个u-net样结构与编码器-解码器和mlf。在融合阶段，引入AdaIN来优化全局光谱分布，并利用AM来学习局部变化信息的权值。对所提出的MFLL-GAN和其他方法，如FSDAF、BiaSTF、EDCSTFN、GAN-STFM和SSTSTF进行了数量和质量上的比较。同时，在消融实验中评价CAC、AdaIN和AM的有效性。对于大分辨率间隙问题，CAC比传统的CNN具有更好的性能。通过AdaIN和AM，MFLL-GAN在突变区域和全局光谱和纹理特征上都表现出更好的性能。比较并分析了不同方法的计算负荷。我们还测试了一个简化的两个输入模型版本，以实现更灵活的预测。我们发现，由于三个输入模型利用了更多的数据和信息，因此它比两个输入模型具有更多的优势。总体而言，对比实验和消融实验均证实了MFLL-GAN在CIA数据集和LGC数据集上与其他五种方法相比的优势。

时空分辨率的巨大差异仍然是时空融合研究中的一个具有挑战性的问题。我们发现，大多数基于深度学习的方法在CIA数据集上通常比在LGC数据集上有更好的性能。原因可能是CIA的数量大于LGC。如何合理地利用更多的数据来解决空间域与时间域之间的矛盾是本研究的关键。在此基础上，这是一些新的深度结构的研究方向，可以更好地利用更多的历史数据来缓解季节或物候的干扰。