A Novel Approach to Incomplete Multimodal Learning for Remote Sensing Data Fusion

最新推荐文章于 2025-04-30 15:03:34 发布

爱喝两碗汤

最新推荐文章于 2025-04-30 15:03:34 发布

阅读量1k

点赞数 9

分类专栏：多源遥感图像融合文章标签：深度学习图像处理人工智能

本文链接：https://blog.csdn.net/m0_62111862/article/details/145577173

版权

多源遥感图像融合专栏收录该内容

12 篇文章

订阅专栏

用于遥感数据融合的不完全多模态学习新方法

作者：Yuxing Chen，IEEE 研究生会员；Maofan Zhao；Lorenzo Bruzzone，IEEE 会士

摘要：在遥感数据融合任务中，多模态Transformer网络成功的关键在于通过自注意力操作连接多模态信号的机制。然而，传统方法假定在训练和推理过程中可以获取所有模态数据，这使得在下游应用中处理模态不完整的输入时，性能会严重下降。为解决这一局限，我们提出了一种在遥感数据融合和多模态Transformer背景下的不完全多模态学习新方法。该方法可用于监督学习和自监督预训练范式。它利用额外学习的融合令牌，结合模态注意力和掩码自注意力机制，在多模态Transformer中收集多模态信号。在预训练阶段，该方法采用重建损失和对比损失促进融合，同时在网络训练时允许随机的模态组合作为输入。实验结果表明，在推理过程中处理不完整输入时，对于建筑物实例/语义分割和土地覆盖制图等任务，该方法在两个多模态数据集上均取得了领先的性能。

关键词：数据融合；多模态；遥感；Transformer

一、引言

遥感在各类地球观测（EO）任务中的重要性日益凸显。随着多模态遥感数据的不断丰富，研究人员如今能够开发出更多样化的下游应用。尽管多模态遥感数据丰富，但每种模态仅捕捉特定属性，无法全面描述观测场景。因此，在许多应用中，单模态数据的使用存在局限性。多模态遥感数据融合则可以解决这些问题。例如，合成孔径雷达（SAR）能提供物理结构信息，而激光雷达（LiDAR）可收集结构和深度信息。同时，多光谱（MS）和高光谱（HS）传感器可测量电磁光谱不同波长的辐射反射率。通过融合多模态数据中的互补信息，能够提高许多数据分析任务的准确性和可靠性，如变化检测和土地覆盖制图。为整合不同传感器和遥感产品（如土地利用和土地覆盖）提供的互补信息，传统方法利用基于特定领域知识的手工特征和融合策略，但这些往往无法捕捉数据中的所有信息。

由于人工智能方法的发展，深度学习在建模不同模态数据间复杂关系方面展现出巨大潜力，被广泛应用于遥感数据融合任务。其中，主要的多模态遥感数据融合场景有SAR-光学、LiDAR-光学和图像-地图融合，深度卷积神经网络（CNNs）和Transformer网络在这些场景中应用广泛。然而，深度CNNs方法假定在训练和推理时所有模态数据均可用，这在实际应用中可能成为限制因素，因为数据采集过程中某些实例可能会缺失部分数据源。在这种情况下，现有的多模态数据融合方法可能无法处理不完整的模态，导致性能严重下降。这种情况下所采用的方法称为不完全多模态学习，旨在学习对任何可用模态子集进行推理时都具有鲁棒性的方法。使用CNNs进行不完全多模态学习的一种简单策略是利用生成模型合成缺失的模态。例如，生成对抗网络（GANs）可以有效克服建筑物足迹分割中因模态缺失或不完整而产生的问题。另一类方法探索从现有模态向不完整模态进行知识蒸馏。在这种背景下，Kampffmeyer等人提出使用一个额外的网络，即幻觉网络，来缓解城市土地覆盖分类任务测试中缺失数据模态的问题。该网络将一种在训练和测试中均假定可用的模态作为输入，试图学习从该模态到缺失模态的映射函数。

尽管取得了有前景的成果，但这些方法需要为每个缺失模态子集训练和部署特定模型，这不仅复杂，而且在下游任务中往往不可靠。此外，所有这些方法在训练过程中都需要完整的模态。近期针对下游任务的不完全多模态学习方法侧重于学习统一模型，而非一系列蒸馏网络。在这种情况下，跨不同模态的模态不变融合嵌入有助于实现更鲁棒的性能，特别是当一个或多个模态缺失时。作为一种具有竞争力的多模态数据融合模型，Transformer因其灵活性和序列建模策略，在网络训练和推理过程中无需访问所有模态，在有缺失模态和无缺失模态的场景中均有效。目前的工作已在完整融合场景中利用Transformer进行多模态遥感数据融合，如激光雷达和高光谱数据融合。对于不完全多模态数据融合，MBT和Zorro提出在Transformer网络中使用可学习令牌融合音频和视频数据。然而，针对遥感任务中不完全多模态学习的专用Transformer的定义尚未明确，现有的多模态遥感数据融合方法在训练过程中也不允许存在缺失数据。此外，Ma等人指出，普通Transformer在单模态输入上容易过拟合。

该技术的另一个局限是，大多数多模态数据融合方法基于监督学习范式。监督学习方法特定于任务，在推广到其他任务时存在局限性。此外，在大量多模态数据上进行训练成本高昂，为每个任务收集足够数量的标记数据对终端用户来说也颇具挑战。因此，研究界通常依赖于在预训练模型上进行少量微调，使网络适应特定任务。无监督预训练受到了广泛关注，因为它更具通用性，且无需标记数据。用于SAR-光学特征融合的自监督学习方法就是这样一种例子。然而，这种预训练方法在网络训练过程中需要访问所有模态。

为解决上述问题，本文提出利用Transformer构建用于遥感任务不完全多模态学习的统一模型，该模型可用于监督学习和自监督预训练范式。通过在网络中使用额外学习的融合令牌来收集多模态信号实现这一目标。然而，仅使用额外学习的融合令牌无法从其他模态令牌中捕获足够信息。在此背景下，我们使用模态注意力模块进一步将不同模态信息提取到融合令牌中。利用该技术，所提方法可以在预训练中利用重建损失和对比损失在不同模态间构建融合。此外，在监督训练中，它可以采用随机模态组合训练策略，这使得在输入不完整模态数据时，学习和推理也能够可行。

本文的三个主要贡献如下：

我们提议在多模态Transformer中使用模态注意力和掩码自注意力，以跨不同模态构建额外的融合令牌，从而实现对不完全多模态输入的对比预训练和掩码重建预训练。
基于所提方法，我们在下游任务中采用随机模态组合训练策略，确保在推理时面对不完整输入时的任务性能。
我们在两个数据集上对所提方法进行基准测试：公开的DFC2023 Track2数据集和创建的四元组数据集。结果表明，所提方法可以在大规模遥感多模态数据集上以自监督方式进行预训练。与普通多模态Transformer相比，在遥感任务中，所提方法取得了最先进的性能。

本文其余部分的组织如下：第二节介绍多模态遥感数据融合、多模态掩码自动编码器（MultiMAE）和多模态Transformer的相关工作；第三节通过描述网络架构、模态注意力、掩码自注意力、掩码重建预训练、对比预训练以及随机模态组合训练策略，介绍所提方法；第四节给出数据集、网络设置、实验设置和下游任务的描述；在建筑物实例/语义分割和土地利用土地覆盖（LULC）制图任务上获得的实验结果以及消融研究在第四节中展示；最后，第五节对本文进行总结。

二、相关工作

（一）多模态遥感数据融合

近年来，深度学习方法在多模态遥感数据融合中得到广泛应用，包括LiDAR-光学、SAR-光学和图像-地图融合。在LiDAR-光学数据融合方面，Paisitkriangkrai等人提出通过连接深度特征和专家特征作为随机森林的输入来融合光学和LiDAR数据。随后，人们开发了多种先进技术，旨在增强特征提取能力。Audebert等人建议使用深度全卷积网络研究LiDAR和多光谱数据的早期融合和晚期融合。类似地，Chen等人采用双分支网络分别提取光谱-空间-高程特征，然后通过全连接层整合这些异构特征以进行最终分类。还引入了其他新颖的融合策略，如使用交叉注意力模块、基于重建的网络和图融合网络。最近的一项研究提出了一种多模态Transformer网络，用于融合LiDAR和高光谱图像进行分类。与LiDAR-光学融合类似，许多研究人员也开发了数字表面模型（DSM）和光学融合方法，其中DSM可通过立体光学图像获取。此外，SAR-光学数据融合广泛采用深度学习方法。例如，Kussul等人探索了深度CNNs在SAR-光学融合中的土地利用土地覆盖（LULC）分类应用，并证明了其相对于传统MLP分类器的优越性。最近的一项研究提出了一种深度学习架构TWINNS，用于在土地覆盖制图中融合Sentinel-1和Sentinel-2时间序列数据。同样，Adrian等人使用三维深度学习网络融合多时间Sentinel-1和Sentinel-2数据，以绘制十种不同的作物类型以及水体、土壤和城市区域。

地图数据，如地形、土地利用、道路和人口普查数据，可与遥感数据结合，以提高图像分类、目标识别和变化检测的准确性。例如，Sun和Li提出了一种基于用户目标的具有不变数据存储结构的神经网络，用于GIS和RS数据融合。Xu等人使用双分支部分到完整网络，基于卫星图像和部分道路地图进行道路提取。

（二）多模态掩码自动编码器

MultiMAE是一种新颖的自监督学习算法，在各种视觉基准测试中表现出最先进的性能。与依赖对比目标不同，MAE利用了一个前置任务，即重建每个输入模态的掩码补丁。它基于标准的单模态ViT和特定模态编码器。编码器在进行线性投影后配备二维正弦-余弦位置嵌入。MultiMAE不使用特定模态嵌入，因为每个线性投影中的偏差项已足够。MultiMAE为每个任务使用单独的解码器，负责从可见令牌重建被掩码的令牌。每个解码器的输入是来自所有不同模态的完整可见令牌集，包括具有二维正弦-余弦位置嵌入的可学习模态嵌入。输入之后是MLP和Transformer块。在损失计算中仅考虑被掩码的令牌。

假设其中一个输入模态是维度为 $\in R^{C ×H ×W}$ 的张量，其中H和W分别是图像的高度和宽度，C是通道数。输入数据最初被划分为不重叠的补丁 $\in R^{L ×P^{2} C}$ ，其中P是补丁的高度和宽度， $\times(W / P)$ 是补丁的数量。然后，使用补丁嵌入函数 $f_{p}: R^{P^{2} C} \to R^{D}$ 将这些补丁转换为嵌入补丁令牌序列 $\in R^{L ×D}$ 。随机掩码序列令牌的一部分 $p_{m}$ ，其余可见令牌被输入到作为视觉Transformer（ViT）的编码器中。由于缺乏位置信息，随后将额外的位置嵌入添加到补丁嵌入中，以捕获补丁的空间位置。每个特定模态解码器由多个Transformer块组成，针对所有令牌进行训练，其中被掩码的令牌被替换为初始化的可学习令牌。每个特定模态解码器产生特定模态的重建结果，并使用均方误差（MSE）损失与相应的模态数据进行比较，仅在被掩码的补丁上计算损失。位置编码使Transformer能够编码位置信息，其公式为：
$i)=\sin \frac{k}{\Omega^{\frac{2 i}{d}}}, Encode(k, 2 i+1)=\cos \frac{k}{\Omega^{\frac{2 i}{d}}}$

这里，k是位置，i是编码中特征维度的索引，d是可能位置的数量，Ω是一个大常数。位置定义为补丁在x轴或y轴上的索引，因此，k的范围是从0到 $H / P$ 或 $W / P$ 。这种编码提供了两个独特的维度，一个用于x坐标，一个用于y坐标，将它们连接起来得到最终的编码表示。

MultiMAE中采用的掩码采样策略在实现跨不同模态的预测编码方面起着至关重要的作用。这种采样策略确保大多数模态以相似的程度被表示。MultiMAE采用对称狄利克雷分布来选择每个模态的令牌比例 $\lambda(\lambda_{i} ~ Dir(\alpha))$ ，其中 $\sum \lambda_{i}=1$ ， $\lambda>0$ 。浓度参数 $\alpha>0$ 控制采样。为简单起见并更好地表示，在MultiMAE中将参数α设置为1。

（三）多模态Transformer

Transformer的自注意力块在统一架构中为多模态信号搭建了自然的桥梁。与为每个模态使用一个网络的CNNs不同，Transformer仅使用相同的主架构处理所有模态，并配备特定模态投影仪。Transformer将来自所有模态的输入令牌整合为单一表示，而CNNs通过连接或张量融合来融合每个模态的特征。然而，这种显式整合要求在训练期间所有模态都存在，一旦某个模态缺失，就会破坏整个流程。相比之下，Transformer使用自注意力嵌入整体多模态表示，并通过在注意力矩阵上应用掩码来处理模态缺失的情况。因此，多模态Transformer更能适应处理模态不完整的输入。此外，对于多模态学习而言，易于训练的模型至关重要。常规多模态骨干网络的训练负载会随着模态数量的增加而增加，这是因为骨干网络通常为每个模态包含单独的子模型，这些子模型必须单独训练。而Transformer在单个模型中一起处理所有模态，显著降低了训练负载。

然而，Transformer模型在面对模态不完整的输入时，性能会显著下降，尤其是在多模态推理的情况下，Transformer模型容易过度拟合主导模态。为克服这一挑战，MBT通过使用额外的融合令牌，利用交叉注意力强制不同模态之间的信息传递，构建了用于视频和音频的多模态架构。然而，在MBT中，每个模态的表示也可以访问其他模态，这意味着它们不是独立的。在文献[19]中，在所有注意力操作中使用了模态感知掩码机制，以隔离单个模态的潜在表示分配，从而导致部分单模态（即部分表示关注单个模态）和部分多模态（即部分表示关注所有模态）的表示，进而允许使用对比学习。

三、方法论

在本节中，我们将介绍所提出的带有额外学习融合令牌、模态注意力和掩码自注意力的不完全多模态融合架构。我们以光学-SAR-数字高程模型（DEM）-地图数据融合为例进行说明。然后，我们将介绍使用重建损失和对比损失进行预训练的细节，以及在下游任务中使用随机模态组合进行训练的细节（见图1）。
拟议框架概述。我们模型的输入是光学图像、SAR 图像、DEM 和地图。这些输入中的每一个都使用 2-D 卷积进行修补，并投影到特征向量。所有输入都与一组可学习的融合标记连接，并添加到位置嵌入中。接下来，我们通过 Transformer 编码器处理这些输入，其中应用了模态注意力和掩蔽的自我注意策略。首先，在预训练中，特定于任务的解码器使用输出融合令牌重建掩码补丁。同时，每个模态和融合标记的全局向量都是使用交叉注意输出的，这允许在每个模态和相应的融合标记之间使用对比损失。其次，在监督训练中，可以使用随机模态组合训练策略，在特定的下游任务上训练所提出的框架。

（一）网络架构

所提方法的主要架构是一个带有针对每个输入模态的特定模态补丁投影层的ViT。具体而言，使用特定的线性投影将每个模态的补丁投影为令牌。在本工作中，我们使用二维卷积提取16×16的补丁，并将它们投影到输入维度D。接下来，将位置嵌入添加到投影向量中，以便模型能够定位和区分每个嵌入补丁。除了多模态输入数据外，还引入了可学习的融合令牌作为输入之一。与MBT和Zorro中的瓶颈融合令牌不同，我们将空间令牌用于密集下游任务，其令牌数量与每个模态的完整输入补丁数量相同。为获取局部特征，我们在空间融合令牌上添加二维正弦-余弦位置嵌入，并使用模态注意力将所有模态信息聚合到融合令牌中。然后，将投影后的补丁与可学习令牌连接成一个令牌序列，并作为输入提供给具有掩码自注意力的同一Transformer编码器。由于我们所有的输入数据都具有二维结构，因此在进行线性投影后添加二维正弦-余弦位置嵌入。按照MultiMAE的设置，我们不考虑任何特定模态的位置嵌入。

（二）模态注意力

我们采用模态注意力机制，将多样的模态输入嵌入无缝集成到学习到的融合令牌中，以增强特征学习能力。模态融合块由一系列Transformer层组成，每个层包含多头交叉注意力（MCA）、层归一化（LN）和多层感知器（MLP）块。考虑一个多模态输入 $z^{l}=[z_{o}^{l}, z_{s}^{l}, z_{d}^{l}, z_{m}^{l}]$ ，包括一个光学令牌、一个SAR令牌、一个DEM令牌和一个地图令牌，以及一个融合令牌 $z_{f}^{l}$ 。我们将融合块中的一个Transformer层表示为 $z_{f}^{l+1}=Transformer([z_{f}^{l}, z^{l}])$ ，具体公式如下：
$\begin{aligned} z_{f}^{l} & =MCA\left(LN\left(\left[z_{f}^{l}, z^{l}\right]\right)\right)+z_{f}^{l} \\ z_{f}^{l+1} & =MLP\left(LN\left(z_{f}^{l}\right)\right)+z_{f}^{l} \end{aligned}$

这里，MCA操作执行点积注意力，查询是融合令牌的线性投影，键/值是每个模态令牌的线性投影。在某个模态缺失的情况下，我们用初始化的掩码令牌 $z_{mask}$ 替换，以解决由于使用掩码而导致的每个位置输入模态数量不同的问题。

（三）掩码自注意力

掩码自注意力是对比预训练中多模态Transformer的关键模块。通过使用掩码注意力，我们迫使部分表示仅关注自身，而其他部分可以关注整个表示。在我们考虑的示例中，该方法的主要目标是将表示划分为五个部分：一个仅关注光学令牌的部分、一个关注SAR令牌的部分、一个关注DEM令牌的部分、一个关注MAP令牌的部分，以及考虑整个表示的融合令牌部分。在这个架构中，每一层的自注意力和最后一层的交叉注意力都使用了这种掩码策略。这里，我们引入掩码二进制张量m，用于指定哪些向量可以相互访问。如果信息可以从潜在向量j流向潜在向量i，则掩码矩阵的元素 $m_{i, j}=1$ ；否则，我们设置 $m_{i, j}=0$ 。掩码应用于标准注意力输出操作，该操作作用于键k、值v和查询q，可以表示为：
在这里插入图片描述
其中 dk 是 k 向量的维度。为了在不存在其他模态时保持单个模态的性能，特定于模态的表示无法访问 fusion 表示或其他模态。这显式地防止了 fusion stream 的信息泄漏到单峰表示中。这是保留对应于单一模式的纯流的关键。因此，应用此掩码后，特定输出 os、oo、od 和 om 仅包含分别来自 SAR、optical、DEM 和 MAP 输入的信息。fusion output o f 访问模型中的所有输出。

（四）重建预训练

为了以MAE的方式训练我们的网络，我们为每个生成任务使用单独的解码器。每个解码器的输入是来自交叉注意力输出的空间令牌。按照MAE的相同设置，我们使用低维的浅层解码器，它由两个Transformer块组成。MultiMAE在不同模态上的掩码确保了模型除了在不同空间补丁上进行预测编码外，还能在不同模态间进行预测编码。根据MultiMAE，我们将可见令牌的数量设置为常数512，在我们的实验中这对应于所有令牌（学习到的融合令牌以及四个模态输入，图像大小为256×256，补丁大小为16×16）的一半。每个模态的令牌比例λ是从对称狄利克雷分布(Optical, $\lambda_{SAR}$ , $\lambda_{DEM}$ , $\lambda_{MAP}$ ) ~ Dir(α)中采样得到的，其中 $\lambda_{Optical}$ + $\lambda_{SAR}$ + $\lambda_{DEM}$ + $\lambda_{MAP}$ = 1， $\lambda$ ≥ 0。为了简单起见，并更好地表示任何可能采样的任务，我们使用浓度参数α = 1。如图1所示，我们采用重建损失（ $l_2$ 距离均方误差）来恢复像素颜色，使用 $l_1$ 损失来恢复高度信息，这是遵循MultiMAE的做法，并且在土地覆盖图重建上使用交叉熵损失（ $l_{ce}$ ）：
$\begin{aligned} L_{DEM} &= l_1(Dec(o_f), DEM) \\ L_{SAR\_Optical} &= l_2(Dec(o_f), SAR) + l_2(Dec(o_f), Optical) \\ L_{MAP} &= l_{ce}(Dec(o_f), MAP) \end{aligned}$

（五）对比预训练

我们还为每个模态输入数据添加了类别令牌，并为学习到的融合令牌添加了一个额外的全局类别令牌。为了整合来自其他模态编码可见令牌的信息，我们添加了一个单一的交叉注意力层，使用这些令牌作为查询，对最后一个自注意力层的编码令牌进行交叉注意力操作。我们利用标准的交叉注意力操作，产生五个不同的输出：每个模态的向量输出以及它们相应的融合向量输出。这种设计为在不同模态和融合令牌之间使用对比学习提供了可能。为了实现更好的多模态对齐，我们提议在每个模态特定输出和融合向量之间使用额外的对比损失。具体来说，给定光学向量输出 $z_o = CA(z_o, o_o)$ 和相应的融合输出 $z_{f\_o} = CA(z_{f\_o}, o_{f\_o})$ ，其中CA是交叉注意力操作， $o_{f\_o}$ 是未掩码光学令牌位置上的融合令牌，对比损失可以表示为：
$L_c(z_o, z_{f\_o}) = -\frac{\mathbb{E}}{S}\left[log \frac{e^{sim(z_o^i, z_{f\_o}^i) / \tau}}{\sum_{j = 1}^{N} e^{sim(z_o^i, z_{f\_o}^j) / \tau}}\right]$
其中sim是一个相似性函数（即余弦相似度），S是一个包含N - 1个负样本和一个正样本的集合。这个公式引入了光学 - 融合对比训练的损失。为了对比所有模态的输出，我们定义了单模态表示和它们相应融合表示之间的对比损失。因此，我们可以将完整的损失写为：
$\begin{aligned} L = L_{DEM} &+ L_{SAR\_Optical} + L_{MAP} + L_c(z_{f\_o}, z_o) \\ &+ L_c(z_{f\_s}, z_s) + L_c(z_{f\_d}, z_d) + L_c(z_{f\_m}, z_m) \end{aligned}$

（六）随机模态组合

除了网络设计，训练策略对模态不完整输入的性能也至关重要。文献[20]的研究发现，Transformer模型在任务中容易过度拟合主导模态。为了提高所提方法对模态不完整数据的鲁棒性，我们提议采用随机模态组合训练策略。由于我们的方法，我们可以在预训练或下游任务的监督训练中随机选择不同的模态组合或单模态数据。在预训练期间，多模态输入会进行随机掩码，在每个补丁位置产生多样的模态组合。模态注意力块有效地将现有模态集成到融合令牌中，并适应输入模态的缺失。这种随机掩码和模态注意力的结合赋予了网络鲁棒性，特别是在面对局部多模态输入缺失的情况。在下游任务的监督训练中，PatchDropout被用作一种数据增强形式。此外，网络训练期间的模态选择是随机的，包括单模态输入、模态完整输入和模态不完整输入的情况。掩码自注意力和额外可学习融合令牌的结合有助于保持单模态性能，并适应整个模态的缺失。所提方法通过引入额外学习的令牌统一所有模态，从而显著减轻了模态不完整输入的影响。

四、实验

在本节中，我们在多种设置下评估所提方法。我们首先介绍本工作中使用的多模态数据集。然后，我们展示预训练和下游任务训练的详细信息，以及评估过程。最后，我们通过消融实验展示模态完整和模态不完整输入的性能，以体现所提方法的灵活性。

（一）实验描述

为了展示所提方法在不同模态上的效果，我们在完全监督范式和使用预训练权重的微调范式下训练该方法。许多研究指出，在多模态数据上预训练的大模型对下游任务有益。预训练模型可以通过特定任务解码器的微调，用于任意下游任务。因此，我们可以在尽可能多模态的大型多模态数据集上训练一个大型模型。预训练模型可以增强仅在少数或单模态数据上训练时的特征提取能力。在本节中，我们提供自监督预训练、下游任务监督训练以及多模态数据集的详细信息。

（二）数据集描述

我们在两个多模态数据集上训练和评估所提方法的性能，用于两个下游任务，即建筑物实例/语义分割和土地利用土地覆盖（LULC）制图。

DFC2023 Track2 - 建筑物实例/语义分割：第一个数据集是DFC2023的Track2数据集，它由RGB图像、SAR图像和DSM数据组合而成，样本大小为256×256像素。它包含5332个用于监督训练的三元组样本和1335个用于评估的样本，其中RGB图像有三个通道，而SAR图像和DSM都只有一个通道。虽然原始任务的目标是建筑物高度估计，但本研究将其简化为建筑物实例/语义分割。该数据集的图像来自高分一号、高分二号和高分三号卫星，空间分辨率分别为0.5米、0.8米和1米。在Track2中使用归一化的DSM（nDSMs）作为参考，它是由高分七号以及WorldView - 1和 - 2拍摄的立体图像创建的，地面采样距离（GSD）约为2米。该数据集收集自六大洲的17个城市，因此在地形、建筑类型和建筑风格方面具有高度多样性。建筑物实例分割的标签采用MS COCO格式，并在一个JSON文件中提供。图2展示了一个标签样本作为示例。
四元组数据集 - 土地利用土地覆盖制图：第二个数据集考虑了从谷歌地球引擎（GEE）平台获取的多种数据源，包括Sentinel - 1、Sentinel - 2、LiDAR DEMs和动态世界（DNW）土地利用土地覆盖图，样本大小为256×256像素（见图3和图4）。该数据集包含法国和澳大利亚不同景观和土地利用土地覆盖类别的37个区域。它由5340个四元组样本用于训练，783个四元组样本用于评估，其中Sentinel - 1图像有两个通道（VV和VH极化通道），Sentinel - 2图像有四个通道（RGB和近红外波段），LiDAR DEMs和DNW土地利用土地覆盖图都只有一个通道。Sentinel - 1任务提供来自双极化C波段SAR仪器的数据，并生成校准和正射校正的S1 GRD产品。我们从GEE上的COPERNICUS/S1_GRD类别下载数据，将其重采样到10米分辨率，并使用双波段VV + VH。同样，我们从COPERNICUS/S2_SR_HARMONIZED类别下载Sentinel - 2数据，该数据提供适用于大规模土地利用土地覆盖制图的13个光谱波段的多光谱成像。在本工作中，我们将Sentinel - 2数据重采样到10米分辨率，并使用RGBN波段。本研究提供了两种类型的LiDAR DEMs。在法国，我们使用RGE ALTI数据集，这是一个使用机载激光雷达创建的数字高程模型，像素大小为1米。我们将该数据集重采样到10米，垂直精度范围为0.2 - 0.5米，在陡坡区域平均精度为7米。在澳大利亚，我们使用从2001年至2015年进行的236次单独激光雷达测量得出的5米网格数字高程模型。我们使用邻域平均法编译和重采样可用的5米分辨率激光雷达衍生数字高程模型，为每个测量区域创建10米分辨率的数据集，并在本工作中使用。DNW地图数据集包含全球一致的、10米分辨率的、近实时的土地利用和土地覆盖预测，这些预测来自Sentinel - 2图像。它有十个波段，包括九个土地利用土地覆盖类（水体、树木、草地、农作物、灌木和灌木丛、淹没植被、建成区、裸地和冰雪）中每个类别的估计概率。它还有一个“标签”波段，指示具有最高估计概率的类别，这使其适用于多时相分析和定制产品创建。最后，我们使用来自2018年UrbanAtlas数据库的标记类别参考，其中包含27个土地利用土地覆盖类，作为该数据集的标签。该数据集提供带有索引标签的整数栅格。
下游任务：我们在两个下游任务（建筑物实例/语义分割和土地利用土地覆盖制图）上，将所提方法与最先进的方法进行比较评估。特别是，评估在监督学习和微调范式下进行。对于这两个下游任务，我们用随机初始化的Mask2Former替换预训练的解码器。Mask2Former结合了掩码注意力，以识别局部特征，并在统一框架中预测全景、实例和语义分割的输出。该模型预测与全局类别标签相关的二进制掩码，从而简化了与语义和全景分割相关的任务，并产生了显著的实证结果。Mask2Former的核心是一个配备预定义查询的专用Transformer解码器。这个解码器集成了掩码注意力操作符，通过将交叉注意力限制在每个查询的预测掩码的前景区域内，而不是在整个特征图上，战略性地提取局部特征。下面，我们概述这两个任务。
- 建筑物实例/语义分割：我们遵循Mask2Former，但用所提网络替换骨干网络。在监督实验中，我们使用随机模态组合策略从头开始训练整个网络。在微调实验中，我们考虑两种策略，一种是在仅使用重建损失预训练的ViT - T骨干网络上更新网络，另一种是在使用重建和对比损失预训练的ViT - T骨干网络上更新整个网络。我们在DFC2023 Track2训练分割集上训练我们的模型，并在验证分割集上报告验证准确率。除了建筑物实例分割的结果，我们还提供二进制建筑物语义分割的结果。
- 土地利用土地覆盖制图：我们仍然在四元组数据集上使用带有所提骨干网络的Mask2Former来生成土地利用土地覆盖图。然而，我们考虑从UrbanAtlas定义的语义层次结构中合并的七个类别。为此，我们通过取预测头的argmax来提取七个语义类别。在这个任务中使用与建筑物实例分割相同的训练策略。我们在10个（5340个样本）城市上训练我们的模型，并在其他2个（783个样本）城市上报告验证准确率。
架构细节：所提方法使用ViT - T作为主要结构，在两个不同任务的预训练中，分别使用4个和5个输入适配器，补丁大小为16×16像素。与标准的MultiMAE不同，我们通过使用额外的输入适配器添加2 - D正弦 - 余弦位置编码，将可学习的融合令牌作为输入。融合令牌的数量与每个模态的补丁输入数量相同。在添加位置编码后，将融合令牌与所有模态输入一起作为模态注意力块的输入。在自注意力中，我们使用掩码算法来避免融合信息泄漏到单个模态。为了获得每个模态和相应融合令牌的全局特征，我们使用额外的交叉注意力层将补丁嵌入映射到向量输出。然后，在每个模态输出向量和相应的融合输出向量之间添加辅助对比损失。对于掩码重建预训练，我们遵循MultiMAE解码器的相同设置，但不使用位置嵌入和交叉注意力层。融合令牌通过线性投影层投影到解码器维度，然后添加到学习到的模态嵌入中。之后，使用两个Transformer块和一个线性投影仪进行投影和重塑，以形成图像或地图。对于两个下游任务，我们采用与Mask2Former相同的设置。对于像素解码器，我们在分辨率为1/8、1/16和1/32的特征图上使用两个MSDeformAttn层，并在最终的1/8特征图上使用带有横向连接的简单上采样层，以生成分辨率为1/4的特征图作为每个像素的嵌入。我们在实例分割中使用具有四层和100个查询的Transformer解码器，在二进制建筑物语义分割中使用两个查询，在土地利用土地覆盖制图中使用九个查询。我们使用二进制交叉熵损失和骰子损失作为掩码损失。最终损失是掩码损失和分类损失的组合。对于实例分割，我们使用标准的AP@50（固定IoU为0.5时的平均精度）指标。对于语义分割，我们使用平均交并比（mIoU）指标。
训练细节：对于预训练，我们分别在DFC2023 Track2数据集的6667个三元组数据和四元组数据集的6123个四元组数据上训练模型1600个epoch。我们使用AdamW优化器，基础学习率为 $1 e - 4$ ，权重衰减为0.05。我们进行40个epoch的热身训练，之后开始使用余弦退火。我们使用单个NVIDIA RTX 3090，将批次大小设置为40。所有数据都调整为256×256大小。在两个数据集上，输入到编码器的未掩码令牌数量设置为所有令牌的一半。对于第二个数据集，我们将土地覆盖图作为具有64维类别嵌入的额外模态输入。对于使用Mask2Former的实例分割和语义分割，我们使用AdamW优化器和步长学习率调度。我们使用初始学习率 $1e^{-4}$ ，权重衰减为0.05。对于有预训练的骨干网络，学习率乘数为0.1，而在监督学习中不使用。我们在总训练步数的0.9和0.95分数处将学习率衰减10倍。在建筑物分割任务和建筑物实例分割任务中，我们将模型训练50个epoch，批次大小为10；在土地利用土地覆盖制图任务中，训练30个epoch，批次大小为30。关于在每次迭代中涉及随机模态组合的训练策略，我们根据小批量梯度下降过程中样本特征大小所施加的约束，系统地调整输入模态的选择和空间随机掩码。输入模态的选择遵循均匀分布，空间随机掩码使用对称狄利克雷分布来确定与每个模态相关的令牌比例。

（三）实验结果

多模态比较：我们用两种范式评估所提方法，一种是从头开始的监督学习，另一种是使用预训练权重的微调。由于没有专门用于不完全多模态遥感数据融合的Transformer，我们将所提方法与一种使用原始自注意力和相同数量可学习融合令牌的技术（称为MultiViT）进行比较，在模态完整和模态不完整输入的情况下，用于建筑物实例/语义分割和土地利用土地覆盖制图任务。表I和表II中的结果显示，在使用模态完整输入进行评估时，所提方法在建筑物实例/语义分割任务上优于MultiViT。同样，在土地利用土地覆盖制图任务中，所提方法的性能也优于MultiViT。对于模态不完整输入，由于联合使用了模态注意力块、掩码自注意力以及随机模态组合训练策略，所提方法在两个任务的所有模态不完整输入和单模态输入上都表现出色。在建筑物实例/语义分割中，RGB图像比其他所有模态的主导性都明显更强，其次是DSM，而SAR图像对任务的贡献最小，甚至会产生噪声。在这种情况下，MultiViT在主导模态输入上完全过拟合，并且在使用模态不完整输入进行评估时，在单模态输入的任务上失败。同样，对于土地利用土地覆盖制图，Sentinel - 2图像和DNW地图对任务有显著影响，其次是Sentinel - 1图像和DEM。所提方法在模态完整输入时，以0.278的mIoU取得了最佳性能，而MultiViT在DNW地图上过度拟合，在输入中存在DNW地图时表现稍好，但在没有DNW地图时则表现不佳。在微调范式下，我们通过两种不同的预训练方法评估所提方法：一种是采用掩码重建预训练，另一种是结合掩码重建和对比预训练。两个任务的评估结果分别列于表I和表II中。可以看出，不同任务呈现出不同的结果。具体而言，在建筑物实例分割任务中，从头开始训练的模型表现优于其他所有模型。仅基于掩码重建的微调结果排名第二，而同时涉及掩码重建和对比预训练的微调结果表现相对较差。在建筑物语义分割任务中，从头开始训练的模型和同时基于掩码重建和对比预训练的微调模型性能相当，均优于仅基于掩码重建预训练的微调结果。相比之下，对于土地覆盖制图任务在土地覆盖制图任务中，经过完全微调（结合掩码重建和对比预训练）的模型在表格中列出的所有模型里表现最佳。这表明掩码重建和对比预训练在增强下游土地覆盖制图任务方面具有潜力。通过对比两种微调结果，可以明显看出，相较于仅使用掩码重建预训练，加入对比预训练能进一步提升性能。

对于单模态输入，我们的目的并非展示在这种设置下的最优性能，因为我们试图解决的是使用多模态骨干网络进行单模态推理时性能急剧下降的问题。在此，我们展示所提方法在输入单模态数据时生成有意义输出的能力。为此，我们仅输入一种模态数据而忽略其他模态输入。从两个数据集的结果（表I和表II）可以看出，MultiViT因模态缺失而性能大幅下降，在非主导模态上完全无法正常工作。相比之下，所提方法采用随机模态组合策略，即使仅有一种模态可用时也能取得较高性能。这是因为在所提模型中，为每个模态专门分配了一定的能力，使模型能够生成单模态输出。除了定量分析，我们还进行了可视化定性对比。图5和图6分别展示了建筑物实例/语义分割和土地覆盖制图的结果。对于建筑物实例/语义分割，与表I中的结果类似，采用监督范式的所提方法性能最佳，其次是微调结果。MultiViT的性能最差，尤其是在模态不完整输入的情况下。对于土地覆盖制图任务，结合对比和掩码重建预训练权重的微调方法优于其他方法，而MultiViT仅在输入DNW数据时表现出可靠性能。

除了评估所提方法在不同模态组合上的性能，我们还基于所提监督学习框架得到的结果，对每个任务中单个模态及其组合进行了深入分析。对于建筑物实例/语义分割任务，光学图像作为主要模态贡献突出，其次是DSM数据，而SAR图像的影响相对较小。在建筑物实例分割中，SAR图像提供的有用信息有限，通过对各种模态组合的探索也得到了类似结果。同时整合SAR、光学和DSM数据可获得最佳性能，光学和DSM数据联合使用也能取得相近结果。相反，SAR与光学或DSM数据的联合使用会导致性能欠佳。对于土地覆盖制图任务，DNW地图贡献最为显著，Sentinel - 2图像的表现与DNW地图相似。相比之下，Sentinel - 1图像贡献较小，DEM无法提供关键信息。DNW地图和Sentinel - 2图像的联合使用优于单独使用，其结果超过了未整合这两种数据时的情况。值得注意的是，Sentinel - 1/-2图像与DNW地图的组合使用达到了最高性能，甚至超过了整合所有四种模态的情况。在某些情况下，单一模态的使用可能会引入噪声，对多模态数据融合的整体性能产生潜在影响。所提方法强调不完全多模态遥感数据融合，不仅增进了对模态贡献的理解，还有助于在推理过程中明智地选择最合适的模态组合。
2. 消融研究：为确保在模态不完整输入情况下的稳健性能，我们全面分析了各种策略对所提方法有效性的影响。尽管最终结果显示所提方法在不同模态组合上表现良好，但随机模态组合训练策略在减轻对主导模态的过拟合方面的作用，以及它对模态完整输入性能的影响仍不明确。

如最终结果所示，引入掩码自注意力可避免信息在模态间流动，从而在网络中保留特定模态信息。这对单模态输入尤其有利，有助于在模态不完整输入时提升性能。掩码自注意力主要用于对比预训练，以保持各模态的独立性，特别是在处理文本和图像时。同时，在掩码重建预训练和监督训练中，掩码自注意力并非必需。不过，掩码自注意力的使用对不同模态间的交互施加了限制，因此需要在监督训练框架内进行更深入的消融研究，以明确其在该特定背景下的潜在优势。

此外，模态注意力在将当前模态信息融入每个补丁令牌的额外融合令牌中起着关键作用，从而增强了额外融合令牌编码表示的意义。模态注意力的有效性需要通过专门的消融研究进一步验证，这与最终结果中对单个模态及其组合的详细分析相一致。为评估所提组件的通用性，所有消融实验均在建筑物实例/语义分割和土地覆盖制图这两个监督范式下的任务中进行，这强化了在最终结果中对模态及其组合的综合分析。

我们首先在监督范式下的下游任务中验证随机模态组合训练策略的重要性。如表III和表IV所示，未采用模态随机组合训练策略的模型在模态不完整输入时性能严重下降，甚至在模态完整输入时结果也没有提升。此外，我们通过从所提网络中移除模态注意力来测试其效果。相应结果显示性能显著下降，这表明模态注意力使融合令牌能够更好地与每个模态交互，有助于为下游任务学习更具判别力的特征。对于掩码自注意力，我们展示了两个任务在无掩码自注意力情况下的监督结果（见表III和表IV）。在第一行中，我们移除了掩码自注意力块，同时保留随机模态组合训练策略，结果与所提方法相比，性能相当甚至更差。这可能是因为尽管掩码自注意力会阻碍不同模态间的交互，但它有助于保持单模态性能，并有益于整个训练过程。在预训练中也能发现使用掩码自注意力的好处。与掩码重建预训练相比，在组合预训练中使用掩码自注意力有助于避免信息在模态间流动。正如人们所观察到的（见表I和表II中的语义分割结果），单模态推理的性能与模态不完整输入时相近，因为各模态流得到了更独立的处理。相比之下，未进行对比预训练的结果往往会过拟合主导模态，在其他模态上表现相对较差，在单个模态上的性能也更低。

五、结论

在这项工作中，我们引入了一种用于多模态遥感数据融合的不完全多模态学习框架，该框架可用于监督训练和自监督预训练范式。与以往的多模态遥感数据融合方法不同，所提方法允许在模型训练和推理过程中处理模态不完整的输入。通过使用模态注意力机制和掩码自注意力，我们能够在MultiMAE框架中利用对比损失和重建损失对网络进行预训练，并且可以在下游任务中采用随机模态组合策略从头开始训练网络或对模型进行微调。这种策略使网络在推理阶段即使面对模态不完整输入或单模态输入时，也能保持较高的性能。

我们在两个多模态遥感数据集上对模型进行了评估，展示了网络训练和推理的灵活性，以及在处理模态不完整输入时的领先性能。值得注意的是，本研究仅关注不同模态的光栅数据。在未来的工作中，我们计划优化所提方法的计算效率，并将文本和向量数据等多种模态的数据纳入所提框架。