Variational Zero-Shot Multispectral Pansharpening
Abstract
全色锐化的目标是通过融合低空间分辨率的多光谱图像(LRMS)和全色图像(PAN)来生成高空间分辨率的多光谱图像(HRMS)。这项任务最具挑战性的问题在于,只有待融合的LRMS和PAN图像是可用的,而现有的基于深度学习(DL)的方法由于依赖大量训练对而不适合解决此类问题。传统的基于变分优化(VO)的方法非常适合解决此类问题。这些方法侧重于为优化问题精心设计显式的融合规则和正则化项,这些规则和正则化项基于研究人员对图像关系和图像结构的发现。与以往基于VO的方法不同,在本工作中,我们通过参数化项而非手动设计项来探索这种复杂的关系。具体而言,我们提出了一种零样本全色锐化方法,通过在优化目标中引入神经网络来实现。该网络估计HRMS的一个表示分量,主要用于描述HRMS与PAN之间的关系。通过这种方式,网络实现了与所谓的深度图像先验(DIP)类似的目标,因为它通过其固有结构隐式地规范了HRMS和PAN图像之间的关系。我们通过交替最小化直接优化网络参数和期望的HRMS图像来最小化这一优化目标。在各种基准数据集上的大量实验表明,与其他最先进的(SOTA)方法相比,我们提出的方法能够实现更好的性能。
Main Method
我们使用大写字母表示矩阵,例如 A ∈ R H × W A \in \mathbb{R}^{H \times W} A∈RH×W。具有超过两个维度的张量用书法体表示,例如 X ∈ R H × W × S \mathcal{X} \in \mathbb{R}^{H \times W \times S} X∈RH×W×S。 X \mathcal{X} X 的第 ((i, j, k)) 个元素表示为 X i j k \mathcal{X}_{ijk} Xijk。符号“ ⊗ \otimes ⊗”表示 A A A 和 B B B 之间的卷积运算。符号“ ⊙ \odot ⊙”表示哈达玛积(Hadamard product),即逐元素相乘。相应地,“ ⊘ \oslash ⊘”表示逐元素除法。“ A ↓ r A \downarrow_r A↓r”表示将 A A A 下采样,尺度因子为 r r r。矩阵或张量的弗罗贝尼乌斯范数(Frobenius norm)写作“ ∥ ⋅ ∥ F \|\cdot\|_F ∥⋅∥F”,即 ∥ X ∥ F : = ( ∑ i j k X i j k 2 ) 1 / 2 \|\mathcal{X}\|_F := \left( \sum_{ijk} \mathcal{X}_{ijk}^2 \right)^{1/2} ∥X∥F:=(∑ijkXijk2)1/2。
Overview to Pansharpening
多光谱全色锐化的目标是将观测到的低分辨率多光谱图像(LRMS)和全色图像(PAN)融合为期望的高分辨率多光谱图像(HRMS)。设 X ∈ R H × W × S X \in \mathbb{R}^{H \times W \times S} X∈RH×W×S 表示HRMS,其中 H H H、 W W W 和 S S S 分别表示HRMS的高度、宽度和光谱维度。对应的LRMS表示为 Y ∈ R h × w × S Y \in \mathbb{R}^{h \times w \times S} Y∈Rh×w×S,全色图像表示为 P ∈ R H × W P \in \mathbb{R}^{H \times W} P∈RH×W。LRMS的下采样因子为 r r r,即 H / h = W / w = r H/h = W/w = r H/h=W/w=r。将多光谱全色锐化方法视为逆问题[69],我们可以为基于变分优化(VO)的通用方法[5]建立以下模型:
min X L y ( X , Y ) + λ 1 L p ( X , P ) + λ 2 R ( X ) ( 1 ) \min_{X} \ L_y(X, Y) + \lambda_1 L_p(X, P) + \lambda_2 R(X) \quad (1) Xmin Ly(X,Y)+λ1Lp(X,P)+λ2R(X)(1)
其中, L y ( ⋅ , ⋅ ) L_y(\cdot, \cdot) Ly(⋅,⋅) 和 L p ( ⋅ , ⋅ ) L_p(\cdot, \cdot) Lp(⋅,⋅) 分别表示描述HRMS/LRMS和HRMS/PAN关系的数据保真项, R ( X ) R(X) R(X) 表示用于表征 X X X 结构的正则化项, λ 1 \lambda_1 λ1 和 λ 2 \lambda_2 λ2 是两个权衡参数,用于平衡各项的比例。
在基于VO的全色锐化方法中,最常用的HRMS与LRMS之间的关系如下[71]:
Y = ( X ⊗ K ) ↓ r + n 1 ( 2 ) Y = (X \otimes K) \downarrow_r + n_1 \quad (2) Y=(X⊗K)↓r+n1(2)
其中, K ∈ R k × k K \in \mathbb{R}^{k \times k} K∈Rk×k 表示模糊核, n 1 n_1 n1 表示小的残差值,通常建模为零均值高斯分布。简而言之,上述表示意味着LRMS被认为是HRMS经过模糊和下采样后的结果。因此, L y L_y Ly 可以表示为:
L y = ∥ Y − ( X ⊗ K ) ↓ r ∥ F 2 ( 3 ) L_y = \| Y - (X \otimes K) \downarrow_r \|_F^2 \quad (3) Ly=∥Y−(X⊗K)↓r∥F2(3)
根据以往的工作,我们还采用与多光谱传感器的调制传递函数(MTF)匹配的高斯滤波器作为核 K K K [72]。该核是预设且固定的。可以看出, L y L_y Ly 项主要衡量空间信息损失,因为模糊和下采样是在空间维度上进行的。
与 L y L_y Ly 不同, L p L_p Lp 项的设计更为复杂,因为PAN如何从HRMS退化仍然是一个开放性问题。在早期的工作中[38],提出了简单的线性模型 P = X × 3 p P = X \times_3 p P=X×3p,随后被许多其他工作采用[39]-[43]。这意味着对 X X X 的光谱波段进行线性组合,系数向量为 p ∈ R S × 1 p \in \mathbb{R}^{S \times 1} p∈RS×1。线性HRMS/PAN模型的最大优势之一是在求解优化问题时计算方便,因为它仅包含矩阵乘法操作。此外,由于操作是在光谱维度上进行的,空间信息可以很好地包含在内。然而,线性模型在提高模型性能方面存在一些缺点。首先,即使 P = X × 3 p P = X \times_3 p P=X×3p 严格成立,由于 rank ( p ) = 1 \text{rank}(p) = 1 rank(p)=1,该方程的解空间仍然很大,这意味着线性模型无法提供更多的图像信息。其次,如果 P = X × 3 p P = X \times_3 p P=X×3p 的关系不严格成立,这种线性模型不可避免地会带来近似误差。
为了进一步提高模型性能,研究了更复杂的模型来描述HRMS/PAN关系,以增强PAN的引导能力[15]-[25]。例如,一些工作重新采用了基于CS(成分替换)和MRA(多分辨率分析)的方法提出的表示[23]-[25]。其中,最简单的模型将HRMS表示为:
X = G ⊙ P ^ ( 4 ) X = G \odot \hat{P} \quad (4) X=G⊙P^(4)
公式(4)具有非常简洁和灵活的形式,类似于Brovey变换[28]。该表示仅包含两个部分。扩展的全色图像 P ^ ∈ R H × W × S \hat{P} \in \mathbb{R}^{H \times W \times S} P^∈RH×W×S 是从PAN构建的,并且具有与HRMS相同的大小,尤其是空间分辨率。例如, P ^ \hat{P} P^ 可以与PAN和LRMS进行直方图匹配。可以看出,在这种表示中, P ^ \hat{P} P^ 主要为HRMS提供空间信息。然而,由于PAN只有一个通道, P ^ \hat{P} P^ 无法保留与 X X X 一致的光谱信息。这就是为什么需要一个系数张量 G G G 来平衡近似。理论上,无论 X X X 和 P P P

最低0.47元/天 解锁文章
3386

被折叠的 条评论
为什么被折叠?



