标题:端元引导分解网络(EGU-NET):一种通用的自监督高光谱分解深度学习框架
期刊: IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS
作者:Danfeng Hong,Lianru Gao,Jing Yao,Naoto Yokoya,Jocelyn Chanussot,Uta Heiden,Bing Zhang
年份:2021
机构:Zhang, Fellow, IEEE
文章目的:提出一种能够在减小牺牲模型泛化能力的同时能够增强模型解混能力的网络结构。
由于数据拟合和重建能力差以及对各种 SV 的敏感性,它们同时概括各种光谱变异性 (SV) 和提取物理上有意义的端元的能力仍然有限。
该网络不仅仅是一个简单的自动编码器结构。所提出网络是一个双流孪生网络,自监督。
two-stream Siamese deep network:通过网络参数共享和添加光谱约束(例如非负性或者和为一),通过一个网络(从纯端元或者接近纯端元中学习到)去更新另外一个解混网络。
由于 HSI 的空间分辨率较低,HSI 中存在大量混合像素,不可避免地会降低光谱辨别力。
SV 可能包括由照明和地形变化引起的比例因子、环境条件或仪器传感器产生的复杂噪声、物理和化学大气效应以及材料的非线性混合,这些通常会导致光谱特征的变形和进一步使得很难准确地解开这些混合像素。
之前的深度解混大多使用的自编码器结构吗,虽然能够精确的重建数据,但是也会产生很多无实际物理意义的端元,是因为在盲解混中缺少了对真实端元的指导。导致对丰度的估计不佳。
双流孪生网络
第一部分:首先从高光谱图像中提取实际端元,然后通过分层的方式抽象所提取端元的属性,再将它通过参数共享的方式转移到另外一部分解混网络。此处非负性约束和和为一约束分别用Relu函数和softmax层添加到了网络中。
所提出的网络不仅适用于像素级解混,也适合用于具有卷积神经网络的空间光谱高光谱解混。
本文贡献:
- 开发了一个通用的 DL 框架,称为 EGU-Net,以更有效和更通用的方式解决非线性盲 HU 问题。
- 一个只考虑由 DNN 主导的像素级 HU,另一个是联合考虑空间光谱信息,以将 HSI 与 CNN 主导的架构分开。
- 除了经典的类似 AE 的解混合架构之外,还提出了一种端到端的两流深度解混合网络,通过一种新颖的自监督策略来模拟真实端元的物理意义属性。据我们所知,这是第一次在基于 DL 的光谱分解中考虑此类端元信息。
- 由于缺乏基本事实(GT),这些分解算法几乎无法定量评估。为此,我们为慕尼黑上空提供了一个新的高光谱场景,其中包含用于 HU 的功能 GT。 GT 可以通过简单但可行的处理链生成。
endmember network (E-Net):
通过将从真实 HS 场景中提取的伪纯端元映射到通过简单 HU 方法(例如 LMM)获得的one-hot-like丰度来学习端元的分层表示。
网络输入是通过使 用顶点分量分析(VCA)提取的纯净端元,输出是通过LMM以及现有的解混模型给出的近似one-hot编码丰度。
批量归一化(BN)层,通过减少内部协方差偏移来加速参数学习并缓解梯度爆炸或消失的问题
BN层之后接着是使用 dropout 层在一定程度上去除可能的异常值和 SV,
此处非负性约束和和为一约束分别用Relu函数和softmax层添加到了网络中。
为了给E-Net提供足够多的端元样本进行训练,从HSI中提取端元谱束方法如下:
-
将HSI划分为部分重叠的块
-
VCA提取每个块中的端元,端元数量由HySime(论文引用的一种方法)自动估计
-
通过K-means算法去除重复端元,并将所有提取到的端元聚合到K个簇中,K值通过实验检验设置为全像素的20%
这样提取的谱束对 SV 是有益的,因为可以在谱束中获得对应于具有不同比例因子、扰动信息和噪声的相同材料的多个端元。这使我们能够在 E-Net 的训练阶段充分考虑和建模 SV,有利于更准确的丰度估计。
损失函数为交叉熵损失:用softmax层出来的结果和所提取的纯净丰度y做交叉熵损失
总的来说,该指导网络的作用就是通过提供与端元相关的属性或信息(例如,曲线形状、反映材料特性的特定波长的光谱吸收)来指导 UR-Net 中的分解过程。(***为什么获得这些属性或者信息就可以进行指导?***可能的原因是因为传统的端元提取提取的很多都是没有意义的端元比如噪声之类的,这里我就告诉你啥是有用的端元,网络应该学的是什么样的端元),另外该网络不同于传统AE网络是直接用VCA提取出来的端元进行初始化网络,而是分层抽象端元指导,更准确。
此外,UR-Net 中解码器部分的非线性重建更容易产生更准确的丰度图估计。
unmixing-reconstruction network (UR-Net):
通常作为解混合网络的主干。重要的是,参数共享策略使两个流之间的关系紧密,能够更好地将特定信息交互到整个网络系统中。
主要包含两个部分:解混和重构
Unmixing
Reconstruction
网络的两个特殊设置:
- 重构部分采用的是非线性激活函数,能够更好地更精细的重建原始光谱特征。
- 和E-Net采用部分参数共享的方式进行联合训练
优化策略就是最小化重构损失:
综上所述,该网络的综合损失函数应该是:
以上是全连接编码器版本,本文进一步做出了改进,提出了空间光谱版本,即加入了卷积运算。
改进版本网络命名为:EGU-Net-ss,主要在两方面和之前的网络不同:
- 尽管E-Net的输入相同,但是该网络采用的是1x1卷积核而不是全连接编码器,并且只在最后两个块中共享了卷积核参数。(思考:与全部共享有什么区别,好处在哪里?)
- 除了光谱特征的逐像素重建之外,EGU-Net-ss 的 UR-Net 能够通过同等关注不同大小感受野的空间信息将完整的HSI送入网络。(这个的作用应该就是能完整的看到一幅图的HSI,而不是部分数据)
实验部分:
数据集的选择:
-
Synthetic Dataset: 200 × 200 × 224大小,有多种SV存在:由光照和拓扑变化引起的主要缩放因子以及其他未知和复杂 SV 的非高斯噪声,主要包含五个端元。
-
Jasper Ridge Dataset:512 × 614 × 224大小,去除噪音和吸水带之后选择了100x100x198的感兴趣区域。主要包含四个端元,#1 树,#2 水,#3 土壤,#4 路。
-
EnMAP Munich Dataset:93 x 171 x 221大小,主要包含五种端元,#1 屋顶、#2 沥青、#3 土壤、#4 水和#5 植被。
一种获得GT的处理方法(获取参考端元曲线和参考丰度图的方法):
- 通过给定的高分辨率高光谱图像,通过高斯下采样得到低分辨率高光谱图像(为什么要用到低分辨率高光谱图像)
- 通过手动标记或者精确度较高的分类器得到对应的高光谱分类图
- 通过分类图和高分辨率低分辨率之间的已知采样率可以计算得到丰度图GT。
- 通过生成的GT丰度图,就可以看出哪些像素的材料属于一类,再求其平均光谱曲线可得到对应的端元曲线。
实验步骤:
- **实验细节:**TensorFlow平台上训练,200个epoch,batchsize设置为和训练集具有的端元数量相同。
采用具有poly学习策略的Adam优化器。
- 评估标准:
- aRMSE( the abundance overall root-mean-square error):通过测量网络跑出来的每个像素的丰度和GT丰度图做一个均方误差。
- SAD(光谱角距离):通过光谱角距离计算网络提取端元和实际端元的相似性来判断网络性能。
- aSAD(平均光谱角距离):每个端元的光谱角距离取均值。
在Synthetic Data上的消融实验:
通过消融实验确定像素级(全连接)网络和CNN卷积网络还有E-Net和非线性重构模块对解混的有效性。
通过上图可以看出,同时具有非线性、E-Net、Conv运算对网络的解混aRMSE指标最低,效果最好,即文章所提出来的改进卷积班结构EGU-Net-ss。
另外,通过将本文所提出的两种网络分别和其它盲解混方法做了性能上的对比:
- 非深度学习解混方法
- 完全约束最小二乘解混合 (FCLSU) 、部分约束最小二乘解混合 (PCLSU) 、通过变量分裂和增广拉格朗日 (SUnSAL) 进行的稀疏解混合 (SUnSAL) 、具有低秩属性嵌入的子空间解混合 ( SULoRA)和 ALMM5 。
- 深度学习解混方法
- 深度自编码器以及本文中所提出的两种方法EGU-Net-pw and EGU-Net-ss。
从图中对比可得出基本上本文所提出来的方法比其他方法评价指标更好。
以上是另外两个数据集的消融实验数据。
Visual Evaluation
- 丰度图可视化对比
端元曲线估计和GT对比:
可见文章所提出的方法在简单的数据集比如Jasper Ridge数据集上有很好的端元提取能力,质量很高,对于复杂的慕尼黑城市数据集也有质量相对较高的匹配能力。
思考:该网络有哪些创新点?该网络可以从哪些方面进行改进?(自行总结)