Probability-based Global Cross-modal Upsampling for Pansharpening

最新推荐文章于 2025-05-23 17:02:14 发布

....。...

最新推荐文章于 2025-05-23 17:02:14 发布

阅读量1.3k

点赞数 17

分类专栏： pansharpening 文章标签：深度学习遥感图像全色锐化

本文链接：https://blog.csdn.net/qq_42208244/article/details/141867163

版权

pansharpening 专栏收录该内容

7 篇文章

订阅专栏

Probability-based Global Cross-modal Upsampling for Pansharpening

Abstract
1. Introduction
2. Related Work
- 2.1. Pansharpening Method
- 2.2. Image Upsampling Method
3. Proposed Upsampling Method
4. Experiments
- 4.1. Datasets and Evaluation Metrics
- 4.2. Component Replacement Experiment

Abstract

全色锐化（Pansharpening）是遥感图像处理中的一个关键预处理步骤。虽然深度学习（DL）方法在这一任务中表现良好，但目前这些方法中使用的上采样方法仅利用了低分辨率多光谱（LRMS）图像中每个像素的局部信息，却忽略了该图像的全局信息以及指导用的全色（PAN）图像的跨模态信息，从而限制了性能的提升。为了解决这一问题，本文提出了一种基于概率的全局跨模态上采样（PGCU）方法用于全色锐化。具体来说，我们首先从概率的角度构建了PGCU方法，然后设计了一个高效的网络模块来实现它，充分利用上述信息，同时考虑通道的特异性。PGCU模块由三个部分组成，即信息提取（IE）、分布和期望估计（DEE）以及精细调整（FA）。大量实验验证了PGCU方法相比其他流行的上采样方法具有优势。此外，实验还表明，PGCU模块可以帮助提高现有最先进（SOTA）深度学习全色锐化方法的性能。

---------------------------概述一下------------------------：
针对的问题：现有的深度学习方法虽然在全色锐化任务中表现良好，但它们使用的上采样方法存在局限性。这些方法主要利用了低分辨率图像中每个像素的局部信息，而没有充分利用图像的全局信息和全色图像的跨模态信息（即两个不同类型图像之间的信息交互）。这限制了这些方法进一步提高性能的能力。
解决方案：本文介绍了一种新的基于概率的全局跨模态上采样方法（PGCU），旨在解决上述问题。

该方法从概率的角度来进行全色锐化的上采样设计。
设计了一个高效的网络模块来实现这个方法，该模块不仅利用了局部信息，还充分利用了全局信息和跨模态信息，并且考虑了不同通道（光谱）的特异性。
PGCU模块由三个主要部分组成：信息提取（IE）：从图像中提取信息。分布和期望估计（DEE）：估计图像中信息的分布和期望值。精细调整（FA）：对图像进行细致调整，确保更高的精度。

1. Introduction

全色锐化（Pansharpening）旨在利用全色图像（PAN）的引导，将低分辨率的多光谱图像（LRMS）重建为高分辨率的多光谱图像（HRMS）。这是许多后续遥感任务（如目标检测、变化检测、光谱解混和分类等）的必不可少的预处理步骤。

在过去的几十年里，全色锐化方法取得了巨大的发展。典型的方法包括成分替代（CS）方法、多分辨率分析（MRA）方法和变分优化（VO）方法。近年来，随着深度学习的快速发展，许多基于深度学习的方法因其强大的非线性拟合和特征提取能力被提出来解决这一任务。在这些方法中，几乎所有的方法都采用了先对LRMS图像进行上采样然后再进行其他超分辨率操作的流程。这些方法将上采样视为这一任务的一个重要且不可或缺的组成部分。例如，在残差网络（如PanNet）中，上采样后的图像直接添加到网络的输出中，这使得上采样图像的质量成为影响模型性能的关键因素。

然而，很少有方法专门设计合理的上采样方法用于全色锐化，大多数方法只是简单地使用双三次插值和反卷积作为上采样模块。同时，为其他任务提出的上采样方法也不适用于全色锐化，如基于注意力的图像上采样（ABIU）和ESPCNN。几乎所有上述上采样方法都采用局部插值的形式，因此受限于感受野的问题。这些基于局部插值的上采样方法无法在全局范围内利用相似的模式，而遥感图像中通常存在许多非局部的相似图块，as shown in Figure 1(b). 此外，几乎所有这些上采样方法都无法利用PAN图像中的有用结构信息。另外，一些现有的上采样方法（例如ABIU）忽略了通道特异性，使用相同的权重来处理所有通道的相同位置，这对于全色锐化来说并不合适，因为光谱图像通道之间存在显著差异。总之，这些现有的上采样方法存在信息利用不足（即LRMS的全局信息、PAN的结构信息）或问题建模不完整（即通道特异性问题）的缺陷。

为了解决上述问题，我们提出了一种新颖的基于概率的全局跨模态上采样方法（PGCU），以利用跨模态和全局信息，同时考虑通道特异性。

之所以采用概率建模，是因为全色锐化本质上是一个病态的图像逆问题，概率建模可以更好地适应问题本身的特性。具体来说，我们从像素值空间为每个通道采样一个近似的全局离散分布值，从而可以表征每个通道的共同特性以及不同通道的独特特性。然后，我们为上采样后的高分辨率多光谱（HRMS）图像中的每个像素和离散分布值建立一个跨模态特征向量，利用的不仅仅是低分辨率多光谱（LRMS）图像，还包括全色（PAN）图像。受Transformer的核心思想启发，我们利用向量相似度来计算每个像素在其通道分布上的概率值。最后，PGCU通过取期望来计算上采样图像的像素值。

为了实现PGCU方法，我们设计了一个包含三个模块的网络模块，即信息提取（IE）模块、分布和期望估计（DEE）模块以及精细调整（FA）模块。首先，IE模块从LRMS和PAN图像中提取光谱和空间信息，以生成通道分布值和跨模态信息。接下来，DEE模块利用这些信息为上采样图像中的每个像素构建跨模态特征向量，并分别生成分布值，然后用这些信息来估计上采样图像中每个像素的分布概率。最后，FA模块进一步利用上采样图像的局部信息和通道相关性进行补偿。

为了进一步探讨PGCU所获得的结果，我们利用信息论对像素分布进行分析。具体来说，通过使用JS散度作为距离测量，将得到的上采样图像中的像素进行聚类，可以很容易地观察到图像的空间非局部相关性。此外，通过可视化上采样图像中每个通道的信息熵图像，也可以轻松观察到通道特异性，这也验证了PGCU方法确实学到了通道之间的差异。

2. Related Work

相关介绍可以先不看，与本文方法不太相关

2.1. Pansharpening Method

Model-based Approaches.
基于模型的图像融合方法大致可以分为三类，即组件替代（CS）方法、多分辨率分析（MRA）方法和变分优化（VO）技术。
CS方法的主要思想是先对PAN图像和LRMS图像进行分解，然后将PAN图像的空间信息与LRMS图像的光谱信息融合，生成HRMS图像。代表性的方法包括主成分分析（PCA）[23]、Brovey方法[18]、强度-色调-饱和度（IHA）[10]和Gram-Schmidt（GS）方法[24]。为了进一步减少光谱失真，MRA方法通过将PAN图像的结构信息注入上采样后的LRMS图像中来重建HRMS图像。典型的方法包括高通滤波（HPF）融合[31]、indusion方法[21]、基于平滑滤波的强度调制（SFIM）[25]等。VO技术将图像融合重新表述为一个变分优化问题，如贝叶斯方法[38]和变分方法。

Deep Learning Approaches.
深度学习方法。在过去的十年里，深度学习（DL）方法已经被研究用于图像融合，这类方法直接学习从LRMS和PAN到HRMS的映射。典型的基于DL的图像融合方法主要包含两种网络架构，即残差结构和双分支结构。
残差结构通过将上采样后的LRMS图像添加到网络的输出中，以回归残差的形式得到HRMS，例如PanNet [45]、FusionNet [14]、SRPPNN [4]等[20, 34, 41, 49]。最近，双分支结构变得越来越流行。这种方法通常分别对PAN和LRMS图像进行特征提取，然后融合它们的特征以重建HRMS图像，例如GPPNN [43]、Proximal PanNet [5]、SFIIN [50]等[2, 6, 40, 44, 51, 52]。这两种方法都先对LRMS进行上采样，然后再进行其他操作，这表明上采样是图像融合中的一个关键步骤。

2.2. Image Upsampling Method

Classical Methods.

许多基于局部插值的上采样方法被广泛应用于图像融合任务中，以获得大规模的多光谱（MS）图像，尤其是双三次插值方法[9]。此外，还有许多类似的技术，如最近邻插值[35]、双线性插值[35]等[27,30]。然而，这类方法在适应性方面表现不佳。

Deep Learning Methods.
随着深度学习的蓬勃发展，许多基于学习的上采样方法被提出。例如，转置卷积[17]在许多任务中被广泛用于上采样低分辨率图像，这种方法可以为局部插值学习一个自适应的权重。在此基础上，最近提出了一种基于注意力的图像上采样方法[22]，用于深度图像超分辨率任务，通过利用Transformer[36]。然而，这种方法忽略了通道的特异性，因为它对所有通道的同一位置使用相同的权重，这对于图像融合来说是不合适的，因为光谱图像通道之间存在差异。此外，还有许多其他上采样方法，如Pu-Net[46]、ESPCNN[32]等[28,29,39]。其中，ESPCNN是为单图像超分辨率提出的，通过多层卷积扩大了感受野。

然而，这些上采样方法存在三个问题。首先，几乎所有这些方法仅有局部感受野，无法利用LRMS的全局信息。其次，大多数上采样方法无法利用PAN信息作为指导。第三，这些方法没有考虑通道特异性。

3. Proposed Upsampling Method

probability-based global cross-modal upsampling (PGCU)
method.

3.1. Probabilistic Modeling

如前所述，图像融合任务的目标是在PAN图像的指导下，从LRMS图像获得HRMS图像。在我们的方法中，上采样后的图像表示为 $\in \mathbb{R}^{C \times W \times H}$ ，LRMS图像表示为 $\in \mathbb{R}^{C \times w \times h}$ ，而PAN图像定义为 $\in \mathbb{R}^{W \times H}$ 。此外，我们将上采样图像的每个像素表示为 $h_{c,i,j} \in \mathbb{R}$ ，其中 $\dots, C$ ， $\dots, W$ ， $\dots, H$ 。接下来，我们将从概率的角度直接对像素 $h_{c,i,j}$ 进行建模，并提出一种新的上采样方法用于图像融合任务。

通常，在我们提出的上采样方法中，我们将每个像素 $h_{c,i,j}$ 视为一个随机变量，然后通过利用LRMS图像 $L$ 和PAN图像 $P$ 的信息来对其概率分布进行建模。更准确地说，PGCU方法使用离散分布的期望来逼近连续分布的期望。为简单起见，这里我们不加下标，假设HRMS图像中的一个像素 $h$ 服从一个在区间 $[0, 1]$ 上有支撑的连续分布，并且 $p (\cdot)$ 是其概率密度函数。因此， $h$ 的期望是
$\int_{0}^{1} h \cdot p(h) \, dh \approx \sum_{i=0}^{k} h_i \cdot p(h_i) \cdot \delta_{h_i} \tag{1}$

其中， $h_i$ 是从区间[0, 1]中抽取的样本， $k$ 是样本大小，且 $\sum_{i} p(h_i) \cdot \delta_{h_i} = 1$ 。我们使用采样方法来数值近似积分。此外，必须存在一个离散分布 $D(\cdot)$ 满足以下条件：

$D(h_i) = p(h_i) \cdot \delta_{h_i} = w_i, \quad i = 1, 2, \ldots, k. \tag{2}$

其中， $w_i$ 可以表示样本 $h_i$ 的重要性。然后，连续变量 $h$ 的期望值可以通过离散分布 $D(\cdot)$ 的期望值来近似。

因此，我们假设 $h_{c,i,j}$ 遵循离散分布：

$h_{c,i,j} \sim D(h_{c,i,j} \mid v_c, p_{c,i,j}), \tag{3}$

其中 $D(h_{c,i,j} \mid v_c, p_{c,i,j})$ 是具有变量值 $v_c \in \mathbb{R}^n$ 和概率向量参数 $p_{c,i,j} \in \mathbb{R}^n$ 的离散分布，即样本及其重要性。此外，考虑到上采样图像的像素值 $h_{c,i,j}$ 依赖于 LRMS 图像 $L$ 和 PAN 图像 $P$ ，我们假设 $v_c$ 和 $p_{c,i,j}$ 都是 $L$ 和 $P$ 的函数。一旦 $v_c$ 和 $p_{c,i,j}$ 确定，离散分布 $D(\cdot)$ 可以明确写作：

$P(h_{c,i,j} = v_{c,k} \mid L, P) = p_{c,i,j}^k, \quad k = 1, 2, \ldots, n.\tag{4}$

此外，在离散分布 $D(\cdot)$ 的定义中，需要注意的是，第 $c$ 个通道中的所有像素共享一个共同的分布值向量 $v_c$ ，而不同通道有不同的 $v_c$ ，这可以表征每个通道的共同属性和不同通道的区别属性。

如前所述，分布参数（即 $v_c$ 和 $p_{c,i,j}$ ）被定义为 $L$ 和 $P$ 的函数。一般而言，我们采用三个函数 $V_{\theta_v}(\cdot)$ 、 $G_{\theta_g}(\cdot)$ 和 $F_{\theta_f}(\cdot)$ 来生成 $v_c$ 和 $p_{c,i,j}$ 。具体来说， $v_c$ 的生成过程如下：

$v_c = V_{\theta_v}(L, P),\tag{5}$

其中 $V_{\theta_v}(L, P)$ 利用 $P$ 的结构信息和 $L$ 的光谱信息来生成具有高表达性的分布值 $v_c$ ， $\theta_v$ 是 $V_{\theta_v}$ 的参数，每个通道都有其对应的 $v_c$ 。对于 $p_{c,i,j}$ ，我们首先生成两个特征向量：

$f_{c,i,j} = F_{\theta_f}(L, P),\tag{6}$

$g_{c,k} = G_{\theta_g}(L, P), \quad k = 1, \ldots, n,\tag{7}$

其中 $F_{\theta_f}(L, P)$ 旨在提取每个像素局部区域的跨模态信息， $f_{c,i,j}$ 是捕捉对应像素的跨模态信息的特征向量；而 $G_{\theta_g}(L, P)$ 也是通过使用局部区域的跨模态信息来捕捉分布值特征 $v_c$ 的属性， $g_{c,k}$ 是另一个特征向量，表示概率密度函数在相应分布值特征附近的信息， $\theta_f$ 是 $F_{\theta_f}$ 的参数， $\theta_g$ 是 $G_{\theta_g}$ 的参数。进一步，通过计算两个向量的相似性，我们可以得到 $p_{c,i,j}$ 如下：

$\tilde{p}_{c,i,j}^k = \frac{\langle f_{c,i,j}, g_{c,k} \rangle}{\| f_{c,i,j} \|_2 \| g_{c,k} \|_2}, \quad k = 1, \ldots, n,\tag{8}$

$p_{c,i,j} = \text{Softmax}(\tilde{p}_{c,i,j}),\tag{9}$

其中 $\langle \cdot, \cdot \rangle$ 是内积操作， $\| \cdot \|_2$ 是 $\ell_2$ 范数，Softmax 是归一化函数，将 $\tilde{p}_{c,i,j}$ 转换为概率（即和为 1）。至此，我们已经定义了 $v_c$ 和 $p_{c,i,j}$ 的生成过程，因此可以获得每个像素 $h_{c,i,j}$ 的分布，即

$D(h_{c,i,j} | v_c(\theta_v), p_{c,i,j}(\theta_f, \theta_g)). \tag{10}$

现在需要注意的是，分布 $D(\cdot)$ 是由 $\theta_v$ 、 $\theta_f$ 和 $\theta_g$ 参数化的。一旦这些参数被学习到，我们可以通过取期望来轻松获得上采样图像 $\tilde{H} = (\tilde{h}_{c,i,j})_{c,i,j}$ ，即

$\tilde{h}_{c,i,j} = E(h_{c,i,j}),\tag{11}$

其中 $E(\cdot)$ 是期望操作符。

总之，上述过程定义了一种新的上采样方法，称为 PGCU。接下来，我们将设计一个高效的网络来实现 PGCU 方法。

3.2. Network Architecture

图2( c )展示了PGCU模块的整体网络架构，它包括三个block，即信息提取（IE）、分布和期望估计（DEE）和微调（FA）。这三个模块的详细结构如图3所示。此外，PGCU模块的使用情况也见图2的(a)和(b)，我们可以看到，PGCU模块可以很容易地嵌入到当前的泛锐化网络中。

3.2.1 Information Extraction

信息提取（IE）模块接收 PAN 图像 $P$ 和 LRMS 图像 $L$ 作为输入，并输出上采样图像 $H$ 中像素 $h_{c,i,j}$ 的离散分布 $D(h_{c,i,j} | v_c, p_{c,i,j})$ 的变量值 $v_c$ 以及用于后续特征向量构建的跨模态特征。为了同时利用 LRMS 图像和 PAN 图像的信息，首先对它们进行特征提取。这个过程可以通过两个函数（即 $V_{\theta_v}(\cdot)$ 和 $G_{\theta_g}(\cdot)$ ）来建模。如前所述，我们设计了两个模块来实现这两个函数，定义为：
$\text{Conv}\{\text{Cat}[\text{DSN}(P), \text{DSM}(L)]\},$

$\text{Conv}\{\text{Cat}[\text{DSN}(P), \text{DSM}(L)]\},$
其中， $V = \{v_c\}_{c=1}^C$ ， $\{g_{c,k}\}_{c=1}^C, \{k=1, \ldots, n\}$ 。 $\text{Conv}(\cdot)$ 是卷积操作符， $\text{Cat}(\cdot)$ 是连接操作符， $\text{DSN}(\cdot)$ 是 PAN 图像的下采样块， $\text{DSM}(\cdot)$ 是 LRMS 图像的下采样块。下采样（DS）块包括一个步幅为 $s$ 的卷积层和一个 (2,2) 的最大池化层。

此外，每个像素在 LRMS 图像中实际上可以被视为来自 HRMS 中最近对应点的降解。考虑到这一事实，我们首先使用最近邻上采样方法构造一个大规模的 MS 张量，然后再为每个像素提取特征。如前所述，这个过程可以通过函数 $F_{\theta_f}(\cdot)$ 定义，这个函数由以下设计模块显式实现：
$\text{Conv}\{\text{Cat}[\text{Conv}(P), \text{Conv}(\text{Nearest}(L))]\},$

其中， $\{f_{c,i,j}\}_{c=1}^C, \{i=1, \ldots, W\}, \{j=1, \ldots, H\}$ ，而 $\text{Nearest}(\cdot)$ 是最近邻上采样方法。

3.2.2 Distribution and Expectation Estimation

分布与期望估计（DEE）模块用于估计每个像素的分布概率，并计算期望值，以获得上采样图像中像素的估计值。在这个 DEE 模块中，之前 IE 模块获得的特征 $F$ 和 $G$ 被输入到通道投影模块，用于建模通道特异性。每个通道投影模块包括一个线性层和一个层归一化（LayerNorm）层。线性层用于将输入特征（即 $F$ 和 $G$ ）映射到对应通道的新特征空间。接下来的层归一化层用于突出每个特征向量之间的差异。每个通道的投影公式为：

$\text{Cat}\{\text{LayerNorm}[\text{Linear}_i(F)]\}_{i=1}^C,$

$\text{Cat}\{\text{LayerNorm}[\text{Linear}_i(G)]\}_{i=1}^C,$

其中， $F$ 包含上采样图像中每个位置的特征向量（不考虑通道特异性）， $G$ 包含分布值中每个位置的特征向量（也不考虑通道特异性）。然后，通过公式 (8) 计算相似度矩阵，并通过公式 (9) 进行归一化，以获得分布概率。最后，通过计算期望值来获得像素的预期值。

3.2.3 Fine Adjustment

微调（FA）模块通过单一的卷积层实现，有利于更好地利用局部信息和通道间的依赖性来补偿损失全局特征和通道特异性。

在这里插入图片描述

4. Experiments

首先选择了五种代表性的基于深度学习的 pansharpening 方法，包括 PanNet [45]、MSDCNN [47]、FusionNet [14]、GPPNN [43] 和 SFIIN [50]，作为基准模型，并用我们的 PGCU 方法替换这些方法中的上采样模块。在这些方法中，PanNet 使用转置卷积上采样方法，而其他四种方法则使用双三次插值进行上采样。此外，为了进一步证明改进并非由于参数数量的增加，我们进行了等参数实验。其次，我们将我们提出的 PGCU 方法与五种流行的上采样方法进行比较，包括传统的双三次插值 [35]、最近邻插值 [35]，以及最新的深度学习基础的转置卷积 (TConv) [17]、基于注意力的图像上采样 (ABIU) [22] 和 ESPCNN [32]。第三，我们对我们方法的主要因素进行了消融实验。最后，我们提供了对学习到的上采样图像中像素分布的可视化分析。PGCU 的超参数设置为 s = 2，N = 3，M = 2 和 L = 128。所有实验都是在一台英特尔酷睿i7-8700K CPU和24GBGeForce RTX 3090 Ti的PC上进行。

4.1. Datasets and Evaluation Metrics

实验中使用了三个数据集，这些数据集分别来自三颗不同的卫星，即 WorldView-2、WorldView-3 和 GaoFen-2。每个数据集被划分为训练集和测试集。每个数据集的基本信息见表 1。在所有数据集中，我们通过使用双三次插值对高分辨率多光谱图像 (HRMS) 进行四倍下采样生成低分辨率多光谱图像 (LRMS)。所有像素都被归一化到 [0, 1] 以确保数值稳定性。
在这里插入图片描述

为了评估每种方法的性能，我们选择了五个常用的评估指标 [37]，包括光谱角度映射 (SAM)、合成相对无量纲全局误差 (ERGAS)、结构相似性 (SSIM)、空间相关系数 (SCC) 和峰值信噪比 (PSNR)。

4.2. Component Replacement Experiment

为了验证我们PGCU方法的有效性，我们首先通过将五种最先进的深度学习（DL）基于的方法中的原始上采样方法直接替换为我们的PGCU方法，以plug-and-play 的方式测试我们的方法。每对方法（例如，PanNet和PanNet*）在相同条件下进行实验。实验结果如表2所示。可以明显观察到，所有五种基础方法在用我们的PGCU方法替换其上采样方法后，在所有数据集上的性能都有显著提高。图4中的视觉图像对比也得出了与表2相同的结论。

在这里插入图片描述
此外，为了证明性能提升并非由于模型复杂性的增加（即参数数量的增加），而是由于我们PGCU方法的合理设计，我们将两个基础方法（即PanNet和GPPNN）的参数数量增加到与替换组件后的相同水平。具体而言，我们增加了PanNet中的ResNet块数量和GPPNN中的Pan-Ms块数量，使得PanNet和GPPNN的参数数量略大于或等于PanNet和GPPNN。实验结果如表3 所示。虽然在增加了PanNet和GPPNN的参数数量后性能有所提升，但与PanNet和GPPNN相比，仍存在较大的性能差距，这表明性能提升归因于我们的PGCU方法。
在这里插入图片描述