Multimodal Hyperspectral Unmixing: Insights from Attention Networks

QxwOnly

已于 2022-05-13 17:06:26 修改

阅读量1.6k

点赞数 3

分类专栏： Hyperspectral Unmixing 文章标签：深度学习计算机视觉

于 2022-05-13 16:44:28 首次发布

本文链接：https://blog.csdn.net/qs17809259715/article/details/124753810

版权

Hyperspectral Unmixing 专栏收录该内容

3 篇文章

订阅专栏

论文链接：https://ieeexplore.ieee.org/document/9724217
GitHub代码链接：https://github.com/hanzhu97702/IEEE_TGRS_MUNet

动机

为了克服高光谱解混中不能区分复杂场景中的目标，特别是对于具有相似材料的不同端元。我们提出了一种新的多模态高光谱解混网络MUNET，并利用LiDAR生成的注意图来辅助网络关注关于场景的空间信息。此外，为了更好地模拟激光雷达的空间信息，采用 Attribute Profile (AP) 来提取不同目标的几何结构。

注： Attribute Profile (AP)在作者洪丹枫的另一篇论文中提出来的《Invariant Attribute Profiles: A Spatial-Frequency Joint Feature Extractor for Hyperspectral Image Classification》。为了解决从空间上不同的场景或位置识别相同的材质可能很困难这一问题，我们提出了一种从高光谱图像的空域和频域局部提取不变特征的方法，称为不变属性轮廓(IAP)。IAP通过利用HSI上的各向同性滤波器组或卷积核以及笛卡尔坐标系中的空间聚集技术(如超像素分割)来提取空间不变特征。此外，它们通过在傅立叶极坐标中构建的定向梯度的连续直方图来模拟不变行为(例如，平移、旋转)。这产生了空间-频率不变特征的组合表示，并应用于HSI分类。

网络结构

在AE该网络中加入SENet，以无监督的方式有效地融合了HSI和LiDAR特征。

现有的多模态解混方法，由HSI得到的导引图也可以引入表示高度差相似度的权重系数。来实现联合丰度解，如TV和空间超图(SH)正则化[，但空间正则化的设计只关注浅层特征，缺乏对多模式数据中高维表示的充分探索。MANET能够聚焦于LiDAR提取的最重要和最有用的特征信息，并指导编码器获得更准确的丰度结果。更具体地说，主要贡献可以概括如下。

我们提出了一种端到端的多模态解混网络，通过将激光雷达数据的高度差整合到HSI中来提高分解性能。充分利用从LiDAR数据获得的高度信息作为先验知识，更好地指导解混过程。
其次设计了一种SENet的注意力机制，本文中的SE注意机制没有考虑全局平均汇集(GAP)部分，因为GAP操作不仅会降低分解网络的收敛速度，而且会丢失一些特征信息，如边缘和离群点。在高光谱解混的过程中通过加权乘法方式来表征高度知识，从而显著提高了性能。（单像素输入，1×1×band，所以应用SENet的时候，就只有右边的部分，没有乘回去）
为了更好地对LiDAR数据的空间信息进行建模，并帮助后续的注意机制快速收敛，引入了属性配置文件(AP)。

由于LiDAR可以提供必要的高度信息来区分光谱相似的物质，HU问题可以融合更多的空间信息，获得理想的解混结果。

注：为了保证ANC和ASC约束，采用Softmax函数以获得估计丰度结果，使用VCA提取的端元进行解码器权重的初始化。

目标函数

计算丰度的余弦相似度

又因为Softmax不能实现丰度的稀疏性，引入L1/2稀疏正则化

最小体积约束能有效的处理端元提取问题，解码器部分利用MVC正则化得到鲁棒的端元结果

总的目标函数：

评价指标

丰度的均方误差

端元的余弦相似度

实验部分

以评估所提出的方法在合成和真实多模式数据集上的性能。此外，还选择了与盲高光谱解混任务相关的六种经典和最新的解混方法进行比较，主要包括三类：

非AE结构的解混方法：基于简单线性迭代聚类的多尺度稀疏解混算法(MUA-SLIC)和空间群稀疏正则非负矩阵分解(SGSNMF)。
基于AE的解混合方法：DAEU、UDAS、CyCU-Net)。
多模态解混方法：基于DSM的加权空间正则化方法(w-DSM)[34]。W-DSM是一种激光辅助解混方法，它通过集成多模态数据的引导图来改善解混效果。

合成的多模态数据集SIM2

总体而言，MUASLIC在端元提取和丰度估计方面的分解性能都很差，因为大型谱库的应用导致分解问题对噪声敏感。 SGSNMF考虑了丰度的稀疏性，在aRMSE和均值ESAD方面带来了一定的性能提升。与传统方法相比，由于引入了去噪和自监督技术，一些基于DL的解混合方法，如UDA和CyCU-Net，通常可以获得更好的端元和丰度结果。W-DSM可以得到相对较小的ESAD和aRMSE结果，这验证了多模态数据空间正则化的有效性。实验结果表明，MUNET在ESAD、Mean ESAD和RMSE方面都取得了最好的性能，说明了注意机制和DL网络相结合在多模态解混任务中的优越性。

真实的多模态数据， Muffle multimodal data和 Houston data

uDAS在这两个数据集上不能很好地执行，因为真实场景通常包含复杂的噪声分布，并且所设计的去噪模块很难基于线性变换的假设对测量的噪声进行建模。对于MUA-SLIC，在MUFFLE数据集上的分解结果不如SGSNMF、DAEU和w-DSM，但在Houston数据集上的平均ESAD表现优于这三种比较方法。这可能是因为MUFFLE数据包含某些端元变化，例如草和树的特征，这使得MUA-SLIC很难构建准确的光谱库,相反，Houston 中各种物质的光谱差异很大，这有助于基于稀疏的解混合方法获得更好的端元结果。与SGSNMF和w-DSM相比，DAEU和CyCU-Net在实际多模式数据集上具有更好的解混合性能，进一步证明了基于DL的方法的有效性。尽管 MUNet没有得到每个端元的最优ESAD结果，但考虑所有端元的平均ESAD是最好的，并且 MUNet提取的所有端元的结果都接近于Houston 数据上的最优结果，说明了 MUNet的稳定性和有效性。通过综合aRMSE和Mean ESAD在多个数据集上的评估性能，与其他方法相比， MUNet能够得到更准确的端元和丰度结果，表明了其在实际场景中对多模态解混任务的优越性.

消融实验

通过在双流网络模型中引入AP或SE注意技术，集成的MUNET在端元和丰度的估计方面都有一定的改善。需要注意的是，由于AP技术更注重对高度差异较大、面积较大的材料的空间信息进行表征，因此它可以有效地提高停车场1、停车场2和草地健康的混合效果。SE注意的引入可以合理地嵌入更详细的信息，这可以进一步带来不同材料在aRMSE和ESAD方面的显著提高。