Spectral–Spatial–Language Fusion Network for Hyperspectral, LiDAR, and Text Data Classification

最新推荐文章于 2025-02-13 11:57:36 发布

开心市民小麦

最新推荐文章于 2025-02-13 11:57:36 发布

阅读量835

点赞数 22

文章标签：深度学习神经网络分类

本文链接：https://blog.csdn.net/Happy_Bug__/article/details/142478965

版权

用于高光谱、激光雷达和文本数据分类的光谱-空间-语言融合网络

10.1109/TGRS.2023.3346935

论文作者：Mengxin Cao , Member, IEEE, Guixin Zhao, Guohua Lv , Member, IEEE, Aimei Dong , Ying Guo , and Xiangjun Dong

论文链接：https://ieeexplore.ieee.org/document/10373894

方向：图像分类

应用：高光谱图像分类

论文笔记

摘要部分重点：

HSI和LiDAR数据之间的异构差距也会对分类性能产生不利影响。需要解决包含大量语言先验知识的语言信息以丰富视觉表示的问题。

提出网络：融合视觉和语言特征，利用光谱特征和空间特征之间共享的语言先验知识来拓宽语义空间。

Introduction部分重点：

高光谱和激光雷达融合分类：特征级和决策级融合。

“The current mainstream fusion methods can be categorized into feature- and decision-level fusion [8]” 目前主流的融合方法可分为特征级和决策级融合[8]

HSI和LiDAR数据在获取有价值样本上具有挑战。

“Nevertheless, the utilization of data enhancement techniques and the incorporation of unlabeled samples can potentially amplify the disparity in distribution between the two data [23], [24].” 然而，利用数据增强技术和合并未标记的样本可能会放大两个数据之间的分布差异[23]，[24]。

解决方案：利用语言先验知识，增强视觉特征表示。——图像文本模型

“Some image-text foundation models were proposed to capture image-text pairs using contrastive learning.”一些图像-文本基础模型，用于使用对比学习捕获图像-文本对。

我们将文本数据添加到原始HSI和LiDAR数据的双模融合任务中，然后从光谱空间语言的角度得到一个三模融合任务。从语言信息中获得的语言先验知识被用来将光谱信息与空间信息相结合，从而得到高质量纹理特征的表示。然而，图像文本基础模型也有一些缺点，这可能会阻碍性能的进一步提高。如下：

图像文本模型中的大多数图像编码器使用堆叠架构[29]。然而，这种盲叠加图像编码器无法满足HSI-LiDAR数据融合提取足够光谱和空间特征的要求。相反，它加剧了HSI和LiDAR数据的特征信息丢失[30]，这限制了分类结果的改进。
虽然文本数据是模态信息之一，但它通常是带有标签描述的单个输入。这种方法可能会削弱HSI和LiDAR模态信息之间多级视觉特征的提取。在具有高样本相似性和密集类分布的分类任务中，仅靠基本标签描述是不够的[27]。

本文贡献：

据我们所知，这是第一个将HSI、LiDAR和文本数据统一起来的光谱-空间语言多模态融合网络，使用语言先验知识作为对比学习的监督信号来获取多模态融合特征。
DCIF编码器是专门为通过级联结构促进HSI和LiDAR数据的增量集成而开发的。该方法通过Sobel算子的谱增强通道（SpeEC）获取深谱特征，通过空间增强通道（SpaEC）获取边缘增强空间特征。
设计了三种文本数据来提取不同层次的语言特征，以与视觉特征对齐，拓宽了传统融合模型的语义空间。

研究方法

A. Overall Architecture

如图2所示，S2LFNet分为三个部分：图像编码器、文本编码器和光谱-空间-语言融合。

“three kinds of text data are designed: label description data, shape description data, and color description data.” 设计了三种文本数据：标签描述数据、形状描述数据和颜色描述数据。

B、Image Encoder

“1) Spectral–Spatial Fusion Module:”

完成光谱-空间信息交互。级联结构。

“2) Spectral Enhancement Channel:”

分层提取深度光谱特征。SpeEC旨在通过提取深光谱和浅光谱信息来获得丰富的光谱特征，以便以后获得更充分的光谱特征。

“3) Spatial Enhancement Channel:”

由Sobel算子块和卷积块组成。空间特征增强模块使用Sobel算子对空间信息进行边缘提取，消除冗余信息并保留空间结构属性。

C、“Text Encoder”

“为了保持与基于图像-文本对比学习的CLIP的一致性，我们还应用了词汇量为49 152的小写字节对编码（BPE）[51]。” (Cao 等, 2024, p. 5503219)

D、“Spectral–Spatial–Language Fusion”

使用对比学习，构建统一的语义空间。语言先验知识作为监督信号。

三个不同的特征对：

“spectral–spatial features and text label features, deep spectral features and text color features, and edge enhancement spatial features and text shape features” 光谱-空间特征和文本标签特征、深光谱特征和文本颜色特征、边缘增强空间特征和文字形状特征

三个loss分别对应上面三个特征对。

为图像编码器获得的视觉特征和文本编码器获得的语言特征构建了一个统一的语义空间。然后，使用对比学习，语言先验知识被用作监督信号，以说明视觉和语言特征在课堂上的对齐情况。提供具有相同类标签和一对一输入数据的所有图像文本对的小批量。光谱-空间特征和标签语言特征的损失融合可以定义为：

此外，具有颜色语言特征的深光谱特征的损失Lspcectral和具有形状语言特征的边缘增强空间特征的损失L spatial都与上述L融合相同。根据上述损失函数，S2LFNet的总损失定义为：

图像和文本编码器通过三种损失的联合损失进行优化。这使得语言先验知识能够指导视觉表示的学习过程，从而将同一类的特征聚集在一起，将不同类的特征分散在一起。它可以帮助进一步减少HSI和LiDAR数据中的异构间隙造成的分布不一致，并促进来自多个来源的视觉数据的融合。

研究结果：

数据集：Houston2013 Dataset[52] ，Trento Dataset[53] ，MUUFL Dataset[54]，[55]

[52] C. Debes et al., “Hyperspectral and LiDAR data fusion: Outcome of the 2013 GRSS data fusion contest,” IEEE J. Sel. Topics Appl. Earth Observ. Remote Sens., vol. 7, no. 6, pp. 2405–2418, Jun. 2014.

[53] D. Hong, L. Gao, R. Hang, B. Zhang, and J. Chanussot, “Deep encoder–decoder networks for classification of hyperspectral and LiDAR data,” IEEE Geosci. Remote Sens. Lett., vol. 19, pp. 1–5, 2022, doi: 10.1109/LGRS.2020.3017414.

[54] X. Du and A. Zare, “Technical report: Scene label ground truth map for MUUFL Gulfport data set,” Univ. Florida, Gainesville, FL, USA, Tech. Rep. 20170417, 2017.

[55] P. Gader, A. Zare, R. Close, J. Aitken, and G. Tuell, “MUUFL Gulfport hyperspectral and LiDAR airborne data set,” Univ. Florida, Gainesville, FL, USA, Tech. Rep. REP-2013-570, 2013.

休斯顿2013数据集上不同文本输入组合的S2 LFNET消融分析：

不同模型的OA具有不同的训练样本百分比。（a）休斯顿2013数据集的结果。（b） Trento数据集的结果。（c） MUUFL数据集的结果。

三种数据集上不同边缘提取算子的OA：

SpaEC中的Sobel算子：如表XI所示，我们进一步验证了不同边缘提取算子的效果，并最终证明了Sobel算子的有效性。

Roberts算子在基于局部差分计算的边缘检测中不是很准确。因此，它导致LiDAR中具有丰富类别分布和密集区域的区域的空间信息丢失。因此，它获得了最低的OA分数。Prewitt算子利用特定区域灰度值产生的差异来实现边缘检测，其水平和垂直有效性超过了Roberts算子。它在LiDAR中的密集分布上表现良好，但在某些不规则类上的边缘提取仍然存在困难。