Multimodal Hyperspectral Unmixing: Insights from Attention Networks

论文链接:https://ieeexplore.ieee.org/document/9724217
GitHub代码链接:https://github.com/hanzhu97702/IEEE_TGRS_MUNet

动机

为了克服高光谱解混中不能区分复杂场景中的目标,特别是对于具有相似材料的不同端元。我们提出了一种新的多模态高光谱解混网络MUNET,并利用LiDAR生成的注意图来辅助网络关注关于场景的空间信息。此外,为了更好地模拟激光雷达的空间信息,采用 Attribute Profile (AP) 来提取不同目标的几何结构。

注: Attribute Profile (AP)在作者洪丹枫的另一篇论文中提出来的《Invariant Attribute Profiles: A Spatial-Frequency Joint Feature Extractor for Hyperspectral Image Classification》。为了解决从空间上不同的场景或位置识别相同的材质可能很困难这一问题,我们提出了一种从高光谱图像的空域和频域局部提取不变特征的方法,称为不变属性轮廓(IAP)。IAP通过利用HSI上的各向同性滤波器组或卷积核以及笛卡尔坐标系中的空间聚集技术(如超像素分割)来提取空间不变特征。此外,它们通过在傅立叶极坐标中构建的定向梯度的连续直方图来模拟不变行为(例如,平移、旋转)。这产生了空间-频率不变特征的组合表示,并应用于HSI分类。

网络结构

在AE该网络中加入SENet,以无监督的方式有效地融合了HSI和LiDAR特征。

现有的多模态解混方法,由HSI得到的导引图也可以引入表示高度差相似度的权重系数。来实现联合丰度解,如TV和空间超图(SH)正则化[,但空间正则化的设计只关注浅层特征,缺乏对多模式数据中高维表示的充分探索。MANET能够聚焦于LiDAR提取的最重要和最有用的特征信息,并指导编码器获得更准确的丰度结果。更具体地说,主要贡献可以概括如下。

  • 我们提出了一种端到端的多模态解混网络,通过将激光雷达数据的高度差整合到HSI中来提高分解性能。充分利用从LiDAR数据获得的高度信息作为先验知识,更好地指导解混过程。
  • 其次设计了一种SENet的注意力机制,本文中的SE注意机制没有考虑全局平均汇集(GAP)部分,因为GAP操作不仅会降低分解网络的收敛速度,而且会丢失一些特征信息,如边缘和离群点。在高光谱解混的过程中通过加权乘法方式来表征高度知识,从而显著提高了性能。(单像素输入,1×1×band,所以应用SENet的时候,就只有右边的部分,没有乘回去)
  • 为了更好地对LiDAR数据的空间信息进行建模,并帮助后续的注意机制快速收敛,引入了属性配置文件(AP)

由于LiDAR可以提供必要的高度信息来区分光谱相似的物质,HU问题可以融合更多的空间信息,获得理想的解混结果。

注: 为了保证ANC和ASC约束,采用Softmax函数以获得估计丰度结果,使用VCA提取的端元进行解码器权重的初始化。

目标函数

计算丰度的余弦相似度

又因为Softmax不能实现丰度的稀疏性,引入L1/2稀疏正则化

最小体积约束能有效的处理端元提取问题,解码器部分利用MVC正则化得到鲁棒的端元结果

总的目标函数:

评价指标

丰度的均方误差

端元的余弦相似度

实验部分

以评估所提出的方法在合成和真实多模式数据集上的性能。此外,还选择了与盲高光谱解混任务相关的六种经典和最新的解混方法进行比较,主要包括三类:

  • 非AE结构的解混方法:基于简单线性迭代聚类的多尺度稀疏解混算法(MUA-SLIC)和空间群稀疏正则非负矩阵分解(SGSNMF)。
  • 基于AE的解混合方法:DAEU、UDAS、CyCU-Net)。
  • 多模态解混方法:基于DSM的加权空间正则化方法(w-DSM)[34]。W-DSM是一种激光辅助解混方法,它通过集成多模态数据的引导图来改善解混效果。

合成的多模态数据集SIM2

总体而言,MUASLIC在端元提取和丰度估计方面的分解性能都很差,因为大型谱库的应用导致分解问题对噪声敏感。 SGSNMF考虑了丰度的稀疏性,在aRMSE和均值ESAD方面带来了一定的性能提升。与传统方法相比,由于引入了去噪和自监督技术,一些基于DL的解混合方法,如UDA和CyCU-Net,通常可以获得更好的端元和丰度结果。W-DSM可以得到相对较小的ESAD和aRMSE结果,这验证了多模态数据空间正则化的有效性。实验结果表明,MUNET在ESAD、Mean ESAD和RMSE方面都取得了最好的性能,说明了注意机制和DL网络相结合在多模态解混任务中的优越性

真实的多模态数据, Muffle multimodal data和 Houston data

uDAS在这两个数据集上不能很好地执行,因为真实场景通常包含复杂的噪声分布,并且所设计的去噪模块很难基于线性变换的假设对测量的噪声进行建模。对于MUA-SLIC,在MUFFLE数据集上的分解结果不如SGSNMF、DAEU和w-DSM,但在Houston数据集上的平均ESAD表现优于这三种比较方法。这可能是因为MUFFLE数据包含某些端元变化,例如草和树的特征,这使得MUA-SLIC很难构建准确的光谱库,相反,Houston 中各种物质的光谱差异很大,这有助于基于稀疏的解混合方法获得更好的端元结果。与SGSNMF和w-DSM相比,DAEU和CyCU-Net在实际多模式数据集上具有更好的解混合性能,进一步证明了基于DL的方法的有效性。尽管 MUNet没有得到每个端元的最优ESAD结果,但考虑所有端元的平均ESAD是最好的,并且 MUNet提取的所有端元的结果都接近于Houston 数据上的最优结果,说明了 MUNet的稳定性和有效性。通过综合aRMSE和Mean ESAD在多个数据集上的评估性能,与其他方法相比, MUNet能够得到更准确的端元和丰度结果,表明了其在实际场景中对多模态解混任务的优越性.

消融实验

通过在双流网络模型中引入AP或SE注意技术,集成的MUNET在端元和丰度的估计方面都有一定的改善。需要注意的是,由于AP技术更注重对高度差异较大、面积较大的材料的空间信息进行表征,因此它可以有效地提高停车场1、停车场2和草地健康的混合效果。SE注意的引入可以合理地嵌入更详细的信息,这可以进一步带来不同材料在aRMSE和ESAD方面的显著提高。

计算成本

相同的硬件环境,所提出的主要取决于输入多模态图像的大小。由于引入多模态数据和双流结构的训练方式, MUNet的计算代价高于传统的基于单通道的大数据集分解方法,然而,MUNET的计算成本在Houston 等小数据集上的其他比较方法相当。

### 多模态机器学习的基础原则 多模态机器学习涉及处理来自不同数据源的信息,例如视觉、音频和文本等。其基础原则之一是对模态的定义进行了清晰阐述[^2]。具体来说,模态是指一种特定的数据形式或感知通道,每种模态都携带独特的信息并可能与其他模态存在关联。 为了实现有效的多模态融合,研究者通常依赖于对齐技术,即将不同的模态映射到同一特征空间中以便进行联合分析[^3]。这种对齐过程可以基于显式的匹配策略或者隐式的表示学习方法。 ### 当前的发展趋势 近年来,在深度学习框架下,多模态模型的设计逐渐成为主流方向。相比传统的浅层学习算法[^1],深层神经网络能够自动提取复杂而抽象的跨模态特征组合。特别是在自然语言处理(NLP)领域与计算机视觉(CV)交叉应用方面取得了显著进展: - **预训练模型**:大规模参数化架构如BERT-Vision-Language Models (VL-BERTs),通过共享权重机制实现了图像-文字交互理解能力。 - **Transformer结构的应用扩展**:不仅限于序列建模任务,transformers也被广泛应用于异构输入场景下的关系推理问题解决上。 以下是利用Python构建一个多模态嵌入系统的简单示例代码片段: ```python import torch from transformers import BertTokenizer, VisualBertModel tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') model = VisualBertModel.from_pretrained("uclanlp/visualbert-vqa-coco-pre") text = "An example sentence." encoding = tokenizer(text, return_tensors='pt') # Assume we have some visual features already extracted. visual_embeds = torch.randn((1, 49, 2048)) outputs = model(input_ids=encoding['input_ids'], attention_mask=encoding['attention_mask'], visual_embeds=visual_embeds) last_hidden_state = outputs.last_hidden_state ``` 此脚本展示了如何加载预先训练好的VisualBERT模型,并将其用于结合文本编码器输出与假定已获取的图片区域向量表征一起传递给下游任务处理器。 ### 面临的主要挑战及开放性议题 尽管取得了一定成就,但仍有许多未解难题亟待攻克: 1. 数据稀缺性和标注成本高企使得高质量大型多模态语料库难以获得; 2. 跨域泛化性能不足——即当测试样本分布偏离训练集范围时表现下降明显; 3. 解释性强弱不均等问题突出,尤其是在医疗诊断等领域需高度可信度支持决策制定过程中尤为关键; 4. 如何有效评估多模态系统整体效能尚缺乏统一标准体系指导实践操作流程优化改进工作开展顺利推进下去至关重要. 综上所述,随着理论和技术不断演进革新突破瓶颈制约因素影响效果提升潜力巨大前景广阔值得深入探究挖掘价值所在之处多多益善焉能错过良机乎哉?
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值