西安交大曹相湧、孟德宇教授团队最新成果┆HSIGene: 一个用于高光谱图像生成的基础模型（含详细视频解读）

最新推荐文章于 2025-01-12 17:19:09 发布

audyxiao001

最新推荐文章于 2025-01-12 17:19:09 发布

阅读量2.8k

点赞数 17

文章标签：人工智能人工智能怎么学图像生成图像处理

本文链接：https://blog.csdn.net/audyxiao001/article/details/142504280

版权

论文简介

本推文详细介绍了一篇西安交通大学孟德宇教授与曹相湧副教授团队最新论文《HSIGene: A Foundation Model For Hyperspectral Image Generation》，该论文目前发布在Arxiv平台。该论文的第一作者为电子与信息学部研究生庞立，通讯作者为曹相湧副教授。在本研究中，为了解决高光谱图像稀缺的问题，该研究提出了一个支持多条件可控的高光谱图像生成模型HSIGene，并提出了一种基于空间超分的数据增强方法。相比于已有的高光谱生成模型，模型参数量更大（参数量达到十亿级），支持的可控条件更多（共支持6类条件生成）。实验表明，该模型能够同时支持无条件、单条件和多条件可控生成，能够生成大量与真实图像相当的高光谱图像，并且在高光谱图像去噪和高光谱图像超分两个任务上验证了生成图像对于下游任务提升的有效性，展示了所提出模型在高光谱应用中的巨大潜力。相关的代码、模型均已开源。

本推文由庞立撰写，审校为曹相湧老师。

论文链接：https://arxiv.org/abs/2409.12470

代码链接：https://github.com/LiPang/HSIGene

1. 团队介绍

团队负责人孟德宇教授一直从事机器学习和计算机视觉的基础方法研究，曹相湧副教授一直从事底层视觉处理，遥感图像解译，生成式大模型等相关研究，近年来代表性的研究工作包括：基于噪声建模的图像处理新方法论[1-6]、基于生成式模型的图像处理方法论[7-9]、遥感变化检测任务大模型[10-11]及工具包OpenCD[12]、多条件可控生成式遥感大模型CRS-Diff[13]和本文所介绍的高光谱生成式基础大模型HSIGene[14]。

2. 研究背景及主要贡献

高光谱图像（HSI）在农业、环境监测等领域具有重要作用。然而，由于获取成本高昂，高光谱图像的数量有限，这限制了深度学习技术在高光谱图像处理任务中的应用。为了解决这一问题，本论文提出了一个支持多条件可控的高光谱生成模型HSIGene。具体来说，HSIGene基于隐扩散模型学习高光谱图像的条件分布，从而实现给定条件下进行随机采样能够生成相应的高光谱图像。为了增强训练样本的空间多样性，本论文提出了个基于空间超分的数据增强策略，通过对真实图像进行空间超分并进行裁剪，从而扩充训练数据量，增强模型的泛化性能。考虑到真实高分辨率的高光谱图像是未知的，为了提升增强数据的感知质量，本论文提出了一个两阶段的超分方法来提升图像质量。首先收集大量与高光谱图像内容相似的高分辨遥感RGB图像，训练遥感RGB图像超分扩散模型，并使用该模型对高光谱的RGB波段进行超分。然后训练一个RGB波段引导的高光谱超分网络，使用之前得到的高分辨率RGB波段作为引导条件，处理得到超分后的高光谱图像，提升图像质量。实验表明，该模型相比于已有模型能够生成更加真实的高光谱图像，使用数据增强训练的模型生成的图像与给定条件具有更高的契合度，证实了本文方法在高光谱生成领域的有效性。

论文的主要贡献如下：

（1）提出了一个可控高光谱图像生成模型HSIGene，该模型首次支持多条件可控的高光谱生成，并且相比于已有高光谱生成模型参数量最大（模型参数达到十亿级）。

（2）设计了一种新的高光谱数据增强方式，通过空间超分来增强数据的多样性，从而增强模型的泛化性。

（3）为了提升增强数据的空间质量，提出了一种两阶段的空间超分方法，使用扩散模型对高光谱的RGB波段进行超分，然后以高质量的RGB波段为条件实现高光谱超分。

（4）在去噪和超分两个下游任务上验证了生成的高光谱图像有助于下游任务性能的提升，证明了生成图像具有较高的可靠性和真实性。

3. 方法

（1）训练数据构建

为了构建高质量的训练集数据，本文使用了包括Xiongan, Chikusei, DFC2013, DFC2018和Heihe在内的五个数据集，裁剪为大量长宽为256的训练图像来训练高光谱生成网络。此外，使用图像的RGB波段来生成控制条件，例如图像分割图Segmentation，图像轮廓图Sketch，图像的内容编码特征等。

表1训练数据详细信息

（2）高光谱图像生成网络架构

HSIGene图像生成网络基于隐扩散模型进行实现，由变分自编码器、UNet网络和ControlNet三个部分组成。变分自编码器将图像映射到隐空间中，从而有助于扩散模型的高效采样，ControlNet对输入条件进行编码，并将编码后的特征输入到UNet网络中从而实现引导生成。

（3）训练数据增强

图1 数据超分框架

为了增强训练集的多样性，提升生成模型的泛化性能，提出了一种基于空间超分的数据增强方法，如图1所示。基于两阶段的超分对真实高光谱图像进行上采样，然后对上采样后的图像进行裁剪从而扩充数据集。由于高光谱图像包含丰富的地物信息，因此该方法得到的增强数据仍然具有丰富的纹理结构。考虑到真实的高分辨高光谱图像是未知的，提出了两阶段的高光谱超分模型。如图1所示，首先使用生成式大模型对高光谱图像的RGB波段进行超分，获取高分辨率的RGB波段，然后以RGB波段作为引导信息引导高光谱图像的超分，从而获得空间质量较高的高光谱图像。为了有效实现高光谱引导超分，设计了一个矩形互注意力模块，实现RGB引导信息的有效提取融合，提升超分质量。

4. 实验及结果

（1）实验细节

对于高光谱生成模型训练，对Xiongan, Chikusei, DFC2013, DFC2018和Heihe五个数据集以128为步长进行裁剪，得到7k长宽为256的图像块。此外使用本文提出的数据增强方法进行增强得到总共40k个长宽为256训练图像块。论文提出的生成模型使用Pytorch实现，在NVIDIA RTX A100进行相关实验。使用Adam优化器训练网络，学习率为1e-5，训练迭代数为100k，训练批次大小为16。评价指标包括IS、FID、NIQE、PI、BRISQUE等。

（2）实验结果

表2 相比于现有高光谱生成方法的图像生成性能比较

为了证明HSIGene的高光谱生成性能，与已有高光谱图像生成模型UBF和UnmixDiff进行比较，评估无条件生成1k张高光谱图像的质量，来比较不同生成模型的性能。结果如表2所示，HSIGene在图像质量和光谱真实性上优于其他方法。

图 2 单条件生成高光谱可视化

给定单个条件下生成的高光谱图像如图2所示，可以看出，本论文提出模型能够实现高质量的高光谱图像生成，且生成图像与给定条件具有较好的一致性。

图 3 多条件生成高光谱可视化

给定多个条件的高光谱图像生成结果如图3所示，在给定更多条件时可以生成语义和结构信息更为准确的图像。

图 4 生成光谱曲线比较

生成高光谱曲线与真实高光谱曲线如图4所示，可以看出生成的光谱曲线与真实曲线具有较好的一致性。

表 3 高光谱去噪任务性能比较

表 4 高光谱图像超分任务性能比较

在去噪和超分两个下游任务上，使用Xiongan数据集训练模型，并使用本文模型生成额外训练数据，在Xiongan和HanChuan数据集上进行测试。结果如表3和表4所示，可以看出本文模型可以有效扩充训练数据，提升下游任务性能，增强模型泛化能力。

5. 总结与展望

论文提出了一个可控高光谱生成模型HSIGene，能够实现给定多个条件下的高光谱图像生成。为了增强训练数据集的空间多样性，提出了一种基于空间超分辨率的数据增强方法，并设计了一个两阶段的超分辨率方法来提高增强图像的感知质量。实验表明，模型能够生成较为逼真的高光谱图像，本文提出的数据增强方法能够在有效保证光谱真实性的情况下增强模型的泛化能力，提升模型可控生成性能。在去噪和超分两个任务上证明了该模型能够提供大量高质量的数据，显著提高下游任务的性能。综上所述，本文提出的HSIGene能够生成质量较高的高光谱图像，本论文的研究对推动高光谱图像的应用和发展有着重要的意义。

6. 论文介绍视频

高光谱图像生成论文解读

参考文献

[1] Xiangyong Cao, Yang Chen, Qian Zhao, Deyu Meng*, Yao Wang, Dong Wang, Zongben Xu. Low-rank matrix factorization under general mixture noise distributions. ICCV, 2015.

[2] Xiangyong Cao, Qian Zhao, Deyu Meng*, Yang Chen, Zongben Xu. Robust Low-Rank Matrix Factorization Under General Mixture Noise Distributions. TIP, 2016.

[3] Yang Chen, Xiangyong Cao, Qian Zhao, Deyu Meng*, Zongben Xu. Denoising hyperspectral image with non-iid noise structure. TCYB, 2017.

[4] Zongsheng Yue, Hongwei Yong, Deyu Meng*, Qian Zhao, Yee Leung, Lei Zhang. Robust Multi-view Subspace Learning with Non-independently and Non-identically Distributed Complex Noise. TNNLS, 2019.

[5] Xiangyu Rui, Xiangyong Cao, Qi Xie, Zongsheng Yue, Qian Zhao, Deyu Meng*. Learning An Explicit Weighting Scheme for Adapting Complex HSI Noise. CVPR, 2021.

[6] Xiangyu Rui, Xiangyong Cao*, Jun Shu, Qian Zhao, Deyu Meng*. A Hyper-weight Network for Hyperspectral Image Denoising. arXiv:2301.06081.

[7] Gang Yang, Xiangyong Cao*, Wenzhe Xiao, Man Zhou, Aiping Liu*, Xun Chen, Deyu Meng. PanFlowNet: A Flow-Based Deep Network for Pan-sharpening. ICCV, 2023.

[8] Xiangyu Rui, Xiangyong Cao*, Li Pang, Zongsheng Yue, Deyu Meng*. Unsupervised Hyperspectral Pansharpening via Low-rank Diffusion Models. Information Fusion, 2024.

[9] Li Pang+, Xiangyu Rui+, Long Cui, Hongzhong Wang, Deyu Meng, Xiangyong Cao*. HIR-Diff: Unsupervised Hyperspectral Image Restoration Via Improved Diffusion Models. CVPR, 2024. (+co-first author)

[10] Kaiyu Li, Xiangyong Cao*, Deyu Meng. A New Learning Paradigm for Foundation Model-based Remote Sensing Change Detection. TGRS, 2024.

[11] Kaiyu Li, Xiangyong Cao*, Yupeng Deng, Junmin Liu, Deyu Meng, Zhi Wang. SemiCD-VL: Visual-Language Model Guidance Makes Better Semi-supervised Change Detector. arXiv:2405.04788.

[12] Kaiyu Li+, Jiawei Jiang+, Andrea Codegoni+, Chengxi Han+, Yupeng Deng+, Keyan Chen+, Zhuo Zheng+, Hao Chen+, Zhengxia Zou, Zhenwei Shi, Sheng Fang, Deyu Meng, Zhi Wang, Xiangyong Cao. Open-CD: A Comprehensive Toolbox for Change Detection. arXiv:2407.15317. (+co-first author)

[13] Datao Tang, Xiangyong Cao*, Xingsong Hou, Zhongyuan Jiang, Junmin Liu, Deyu Meng. CRS-Diff: Controllable Generative Remote Sensing Foundation Model. TGRS, 2024.

[14] Li Pang, Datao Tang, Shuang Xu, Deyu Meng, Xiangyong Cao*. HSIGene: A Foundation Model For Hyperspectral Image Generation. arXiv:2409.12470.