Pan-GAN：用于遥感图像融合的无监督全色图像锐化方法

最新推荐文章于 2024-12-08 00:09:37 发布

Change_ZH

最新推荐文章于 2024-12-08 00:09:37 发布

阅读量6.9k

点赞数 10

分类专栏：深度学习文章标签：机器学习深度学习 pytorch

本文链接：https://blog.csdn.net/qq_36449741/article/details/109004425

版权

深度学习专栏收录该内容

60 篇文章

订阅专栏

📝论文下载地址

[论文地址]

👨‍🎓论文作者

Jiayi Ma，Wei Yu，Chen Chen，Pengwei Liang，Junjun Jiang

📦模型讲解

[背景介绍]

在遥感系统中，卫星可以获得两种完全不同的方式的图像：多光谱图像和全色图像。多光谱图像具有较高的光谱分辨率，但空间分辨率较低。而全色图像具有较低的光谱分辨率和较高的空间分辨率。
遥感图像融合中的全色图像锐化是指将全色图像与低分辨率的多光谱图像融合，得到高分辨率的多光谱图像。近年来，基于卷积神经网络的全色图像锐化方法取得了最先进的性能。但是现有的基于CNn的策略需要监督，低分辨率多光谱图像是简单地对高分辨率图像进行模糊和下采样得到的。另一方面，它们通常忽略全色图像丰富的空间信息。

如上图所示，左边第一幅为低分辨率的多光谱图像，左边第二幅为全色图像，左边第三幅是通过PNN的融合结果，最后是通过Pan-GAN的融合结果。

[模型解读]

在本节中，作者提出了无监督全色图像锐化框架Pan-GAN，用于多光谱图像和全色图像融合。

[总体结构]

目前多光谱与全色图像融合的深度学习方法中都是选取高分辨率的多光谱图像，对其插入高频信息生成全色图像，对其进行高斯模糊和下采样获得低分辨率的高光谱图像。融合的GroundTruth为初始的高分辨率的多光谱图像。这样的操作很有可能没有意义，现实中，LRMS和HRMS不是简单的上下采样的关系。所以作者提出了Pan-GAN利用原始图像无监督地生成HRMS融合图像。

为了保持全色图像的光谱信息和全色图像的空间信息，作者将全色图像锐化问题定义为一个多任务问题，并利用生成对抗策略求解，如上图所示。本文使用的所有LRMS图像都有4个光谱波段。首先，对LRMS图像插值到与全色图像相同的分辨率，然后将它们通道堆叠。叠加图像的第一通道为全色图像，其余通道对应于插值后的LRMS图像。然后将通道堆叠后的图像输入生成器 $G$ ， $G$ 输出是全色图像锐化结果，即融合图像HRMS图像。

为了克服这一难题，将保留LRMS图像的光谱信息和保持全色图像的空间信息作为两个任务，分别利用两种判别器进行处理。第一个判别器 $D_1$ 称为光谱判别器，其目的是使生成的图像的光谱信息与LRMS图像的光谱信息一致。首先对LRMS图像进行插值，使其与生成器的输出HRMS图像具有相同的分辨率，然后将HRMS图像和上采样的LRMS图像输入到 $D_1$ 中，可以使HRMS图像与原始LRMS图像的光谱分布一致。第二个判别器称为空间鉴别器，其目的是使生成的图像的空间信息与全色图像的空间信息一致。HRMS图像进行通道维的平均池化，以获取单通道图像。然后将该单通道图像和全色图像输入到 $D_2$ 中，使HRMS图像的空间分布与原始全色图像的空间分布一致。在训练过程中，一旦这两个判别器不能区分输入信号，就可以得到理想的HRMS图像。

[损失函数]

[生成器损失函数]

$L_G=L_{spectral}+L_{spatial}$
其中 $L_G$ 表示 $G$ 的总损失，右侧第一项 $L_{spectral}$ 表示生成的HRMS图像与原始LRMS图像的光谱信息之间的光谱损失，其定义如下：
$\mathcal{L}_{\text {spectral }}=\frac{1}{N} \sum_{n=1}^{N}\left\|\downarrow I_{f}^{(n)}-I_{\mathrm{ms}}^{(n)}\right\|_{F}^{2}+\alpha \mathcal{L}_{\mathrm{adv1}}$
$I_f^{(n)}$ 表示生成的HRMS图像， $\downarrow I_f^{(n)}$ 代表将生成器的融合图像下采样到与LRMS图像分辨率相同， $I_{ms}^{(n)}$ 表示原始LRMS， $||\sdot ||_F$ 代表矩阵F-范数， $\alpha$ 是平衡损失的超参数。公式中右手边的第一个项称之为基础损失，目的是为了将光谱信息保留在LRMS图像中。仅仅依靠插值并不能代表LRMS与HRMS图像之间的关系。因此在公式中引入第二项，其定义如下：
$L_{adv1}=\frac{1}{N}\sum_{n=1}^N(D_1(I_f^{(n)})-c)^2$
其中 $D_1$ 为判别器， $c$ 为判别器对生成器生成结果的置信度。
其中 $L_{spatial}$ 表示 $L_G$ 的空间损失，其定义如下：
$L_{spatial}=\mu \frac{1}{N}\sum_{n=1}^N||\triangledown AP(I_f^{(n)})-\triangledown I_{pan}^{(n)}||_F^2+\beta L_{adv2}$
其中 $I_{pan}^{(n)}$ 表示原始全色图像， $\triangledown$ 表示梯度算子来提取高频空间信息， $\mu$ 是平衡损失光谱损失和空间损失的超参数， $\beta$ 是平衡两个损失的超参数。 $AP(\sdot)$ 代表沿通道的平均池化的函数。空间信息不能完全用梯度来表示，也同样加上第二项，可以写成：
$L_{adv2}=\frac{1}{N}\sum_{n=1}^N(D_2(AP(I_f^{(n)}))-d)^2$
其中 $D_2$ 为判别器， $c d$ 为判别器对生成器生成结果的置信度。

[判别器损失函数]

Pan-GAN中有两种判别器，一种用于光谱判别，另一种用于空间判别。其损失函数可统一定义为：
$\mathcal{L}_{\mathrm{D}}=\frac{1}{N} \sum_{n=1}^{N}\left(D\left(I^{(n)}\right)-b\right)^{2}+\frac{1}{N} \sum_{n=1}^{N}\left(D\left(I_{f}^{(n)}\right)-a\right)^{2}$
其中 $I^{(n)}$ 表示拟合的目标图像， $a$ 和 $b$ 分别表示目标图像 $I^{(n)}$ 和生成的HRMS图像 $I_f^{(n)}$ 的标签， $D(I^{(n)})$ 和 $D(I_f^{(n)})$ 分别表示目标图像和生成的HRMS图像的分类结果。本文采用最小二乘损失作为损失函数。
为了保持光谱特征，作者设置 $D=D_1$ ， $I^{(n)}=\uparrow I^{(n)}_{ms}$ ，光谱判别器是区分使生成的HRMS图像与插值的LRMS图像。在对抗的过程中，光谱判别器不能对 $I_f^{(n)}$ 与 $\uparrow I_{ms}^{(n)}$ 进行区分则达到目标。
为了保持空间特征，作者设置 $D=D_2$ ， $I_f^{(n)}=AP(I^{(n)}_{f})$ ，空间判别器是区分使生成的HRMS图像与原始全色图像。在对抗的过程中，空间判别器不能对 $I_f^{(n)}$ 与 $AP(I^{(n)}_{f})$ 进行区分则达到目标。

[网络结构]

Pan-GAN主要包括三个部分：生成器、光谱判别器、空间判别器。他们都是由卷积神经网络组成。

[生成器网络结构]

在本文中，作者采用最初用于图像超分辨的PNN架构。与残差网络相比，PNN的结构更简单，易于训练。相应地，生成器结构维三个卷积核分别为 $9\times 9$ ， $5\times 5$ 和 $5\times 5$ 的卷积层。步长为1加上padding，每层提取的featuremap的个数设置为64，32和4。为了加快模型训练的收敛速度，使其更加稳定，作者采用了DcGAN设计的准则，即除最后一层卷积的激活函数为tanh外，所有激活函数均为ReLU。采用除最后一层外都采用BN，避免了梯度消失的问题。此外，作者还为PNN增加了一些跳跃连接。这些跳跃连接可以将更多细节传递给后面的层，以充分利用有效信息。

[判别器网络结构]

Pan-GAN由两个判别器组成，即光谱判别器和空间鉴别器，但它们在不同的输入条件下具有相同的结构。判别器使用了全卷积的神经网络，每个神经网络由六层组成。前五层卷积核尺寸为3 $\times 3$ ，最后一层卷积核尺寸为 $4\times 4$ 。前5层的步长设置为2，最后一个设置为1。在不同的层中提取的featuremap的数量分别设置为16、32、64、128、256和1。此外，除了第一层之外，其他五层使用BN和Leaky ReLU作为激活函数。对于光谱判别器，输入的是生成的HRMS图像或插值后的LRMS图像。对于空间判别器，输入的是原始全色图像或生成的HRMS图像沿通道维平均池化后生成的单通道图像。判别器的输出是分类结果。

[结果分析]

[消融实验]

本节进行了不同损失组合的消融研究。考虑到光谱对抗损失（ $L_{spectral}$ ）和空间对抗损失（ $L_{spatial}$ ）是否得到性能优化。仅保留生成器且仅保留基本损耗优化的生成器网络、保留空间判别器的生成对抗网络、保留光谱判别器的生成对抗网络、保留光谱判别器和空间判别器的生成对抗网络，如下图所示。之后会更新指标的计算方法。