论文阅读-Endmember-Guided Unmixing Network (EGU-Net) 端元指导型高光谱解混网络

标题:端元引导分解网络(EGU-NET):一种通用的自监督高光谱分解深度学习框架
期刊: IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS
作者:Danfeng Hong,Lianru Gao,Jing Yao,Naoto Yokoya,Jocelyn Chanussot,Uta Heiden,Bing Zhang
年份:2021
机构:Zhang, Fellow, IEEE

文章目的:提出一种能够在减小牺牲模型泛化能力的同时能够增强模型解混能力的网络结构。

由于数据拟合和重建能力差以及对各种 SV 的敏感性,它们同时概括各种光谱变异性 (SV) 和提取物理上有意义的端元的能力仍然有限。

该网络不仅仅是一个简单的自动编码器结构。所提出网络是一个双流孪生网络,自监督。

two-stream Siamese deep network:通过网络参数共享和添加光谱约束(例如非负性或者和为一),通过一个网络(从纯端元或者接近纯端元中学习到)去更新另外一个解混网络。

由于 HSI 的空间分辨率较低,HSI 中存在大量混合像素,不可避免地会降低光谱辨别力。

SV 可能包括由照明和地形变化引起的比例因子、环境条件或仪器传感器产生的复杂噪声、物理和化学大气效应以及材料的非线性混合,这些通常会导致光谱特征的变形和进一步使得很难准确地解开这些混合像素。

之前的深度解混大多使用的自编码器结构吗,虽然能够精确的重建数据,但是也会产生很多无实际物理意义的端元,是因为在盲解混中缺少了对真实端元的指导。导致对丰度的估计不佳。

双流孪生网络

第一部分:首先从高光谱图像中提取实际端元,然后通过分层的方式抽象所提取端元的属性,再将它通过参数共享的方式转移到另外一部分解混网络。此处非负性约束和和为一约束分别用Relu函数和softmax层添加到了网络中。

所提出的网络不仅适用于像素级解混,也适合用于具有卷积神经网络的空间光谱高光谱解混。

本文贡献:

  • 开发了一个通用的 DL 框架,称为 EGU-Net,以更有效和更通用的方式解决非线性盲 HU 问题。
  • 一个只考虑由 DNN 主导的像素级 HU,另一个是联合考虑空间光谱信息,以将 HSI 与 CNN 主导的架构分开。
  • 除了经典的类似 AE 的解混合架构之外,还提出了一种端到端的两流深度解混合网络,通过一种新颖的自监督策略来模拟真实端元的物理意义属性。据我们所知,这是第一次在基于 DL 的光谱分解中考虑此类端元信息。
  • 由于缺乏基本事实(GT),这些分解算法几乎无法定量评估。为此,我们为慕尼黑上空提供了一个新的高光谱场景,其中包含用于 HU 的功能 GT。 GT 可以通过简单但可行的处理链生成。

endmember network (E-Net)

通过将从真实 HS 场景中提取的伪纯端元映射到通过简单 HU 方法(例如 LMM)获得的one-hot-like丰度来学习端元的分层表示。

网络输入是通过使 用顶点分量分析(VCA)提取的纯净端元,输出是通过LMM以及现有的解混模型给出的近似one-hot编码丰度。

批量归一化(BN)层,通过减少内部协方差偏移来加速参数学习并缓解梯度爆炸或消失的问题

BN层之后接着是使用 dropout 层在一定程度上去除可能的异常值和 SV,

此处非负性约束和和为一约束分别用Relu函数和softmax层添加到了网络中。

为了给E-Net提供足够多的端元样本进行训练,从HSI中提取端元谱束方法如下:

  • 将HSI划分为部分重叠的块

  • VCA提取每个块中的端元,端元数量由HySime(论文引用的一种方法)自动估计

  • 通过K-means算法去除重复端元,并将所有提取到的端元聚合到K个簇中,K值通过实验检验设置为全像素的20%

    这样提取的谱束对 SV 是有益的,因为可以在谱束中获得对应于具有不同比例因子、扰动信息和噪声的相同材料的多个端元。这使我们能够在 E-Net 的训练阶段充分考虑和建模 SV,有利于更准确的丰度估计。

    损失函数为交叉熵损失:用softmax层出来的结果和所提取的纯净丰度y做交叉熵损失

在这里插入图片描述

总的来说,该指导网络的作用就是通过提供与端元相关的属性或信息(例如,曲线形状、反映材料特性的特定波长的光谱吸收)来指导 UR-Net 中的分解过程。(***为什么获得这些属性或者信息就可以进行指导?***可能的原因是因为传统的端元提取提取的很多都是没有意义的端元比如噪声之类的,这里我就告诉你啥是有用的端元,网络应该学的是什么样的端元),另外该网络不同于传统AE网络是直接用VCA提取出来的端元进行初始化网络,而是分层抽象端元指导,更准确。

此外,UR-Net 中解码器部分的非线性重建更容易产生更准确的丰度图估计。

unmixing-reconstruction network (UR-Net)

通常作为解混合网络的主干。重要的是,参数共享策略使两个流之间的关系紧密,能够更好地将特定信息交互到整个网络系统中。

在这里插入图片描述

主要包含两个部分:解混和重构

Unmixing

Reconstruction

网络的两个特殊设置:

  • 重构部分采用的是非线性激活函数,能够更好地更精细的重建原始光谱特征。
  • 和E-Net采用部分参数共享的方式进行联合训练

优化策略就是最小化重构损失:

在这里插入图片描述

综上所述,该网络的综合损失函数应该是:

在这里插入图片描述

以上是全连接编码器版本,本文进一步做出了改进,提出了空间光谱版本,即加入了卷积运算。

改进版本网络命名为:EGU-Net-ss,主要在两方面和之前的网络不同:

  • 尽管E-Net的输入相同,但是该网络采用的是1x1卷积核而不是全连接编码器,并且只在最后两个块中共享了卷积核参数。(思考:与全部共享有什么区别,好处在哪里?)
  • 除了光谱特征的逐像素重建之外,EGU-Net-ss 的 UR-Net 能够通过同等关注不同大小感受野的空间信息将完整的HSI送入网络。(这个的作用应该就是能完整的看到一幅图的HSI,而不是部分数据)

在这里插入图片描述

实验部分:

数据集的选择:

  • Synthetic Dataset: 200 × 200 × 224大小,有多种SV存在:由光照和拓扑变化引起的主要缩放因子以及其他未知和复杂 SV 的非高斯噪声,主要包含五个端元。

  • Jasper Ridge Dataset:512 × 614 × 224大小,去除噪音和吸水带之后选择了100x100x198的感兴趣区域。主要包含四个端元,#1 树,#2 水,#3 土壤,#4 路。

  • EnMAP Munich Dataset:93 x 171 x 221大小,主要包含五种端元,#1 屋顶、#2 沥青、#3 土壤、#4 水和#5 植被。

一种获得GT的处理方法(获取参考端元曲线和参考丰度图的方法):

  • 通过给定的高分辨率高光谱图像,通过高斯下采样得到低分辨率高光谱图像(为什么要用到低分辨率高光谱图像)
  • 通过手动标记或者精确度较高的分类器得到对应的高光谱分类图
  • 通过分类图和高分辨率低分辨率之间的已知采样率可以计算得到丰度图GT。
  • 通过生成的GT丰度图,就可以看出哪些像素的材料属于一类,再求其平均光谱曲线可得到对应的端元曲线。

在这里插入图片描述

实验步骤:
  • **实验细节:**TensorFlow平台上训练,200个epoch,batchsize设置为和训练集具有的端元数量相同。

采用具有poly学习策略的Adam优化器。

  • 评估标准:
    • aRMSE( the abundance overall root-mean-square error):通过测量网络跑出来的每个像素的丰度和GT丰度图做一个均方误差。
    • SAD(光谱角距离):通过光谱角距离计算网络提取端元和实际端元的相似性来判断网络性能。
    • aSAD(平均光谱角距离):每个端元的光谱角距离取均值。

在Synthetic Data上的消融实验:

通过消融实验确定像素级(全连接)网络和CNN卷积网络还有E-Net和非线性重构模块对解混的有效性。

在这里插入图片描述

通过上图可以看出,同时具有非线性、E-Net、Conv运算对网络的解混aRMSE指标最低,效果最好,即文章所提出来的改进卷积班结构EGU-Net-ss。

另外,通过将本文所提出的两种网络分别和其它盲解混方法做了性能上的对比:

  • 非深度学习解混方法
    • 完全约束最小二乘解混合 (FCLSU) 、部分约束最小二乘解混合 (PCLSU) 、通过变量分裂和增广拉格朗日 (SUnSAL) 进行的稀疏解混合 (SUnSAL) 、具有低秩属性嵌入的子空间解混合 ( SULoRA)和 ALMM5 。
  • 深度学习解混方法
    • 深度自编码器以及本文中所提出的两种方法EGU-Net-pw and EGU-Net-ss。

在这里插入图片描述

从图中对比可得出基本上本文所提出来的方法比其他方法评价指标更好。

在这里插入图片描述
在这里插入图片描述

以上是另外两个数据集的消融实验数据。

Visual Evaluation

  • 丰度图可视化对比

在这里插入图片描述
在这里插入图片描述

端元曲线估计和GT对比:

在这里插入图片描述

可见文章所提出的方法在简单的数据集比如Jasper Ridge数据集上有很好的端元提取能力,质量很高,对于复杂的慕尼黑城市数据集也有质量相对较高的匹配能力。

思考:该网络有哪些创新点?该网络可以从哪些方面进行改进?(自行总结)

### 回答1: b'fast end-to-end trainable guided filter'是一个快速端到端可训练的引导滤波器。它是一种用于图像增强和降噪的滤波器,将图像作为输入,并产生增强的输出图像。该滤波器采用网络架构,可以通过监督学习进行训练,从而使其能够自适应地对不同的图像进行增强和降噪。此技术的创新之处在于它的速度快,并且可以自动调整和学习不同图像的特征和参数,从而提高了图像增强和降噪的效果和传统方法的性能。 ### 回答2: 快速端到端可训练引导滤波器(fast end-to-end trainable guided filter)是一种基于深度学习图像处理算法,它可以快速地进行图像去噪、图像增强等操作。引导滤波是一种经典的图像降噪算法,它的原理是利用附加信息对图像进行滤波。传统的引导滤波需要在滤波过程中手动设置许多参数,效率较低,而且不易学习。 该算法将引导滤波嵌入到深度神经网络中,使得其可以端到端地训练,自动学习最佳参数,可以根据实际情况自动调整参数,从而得到更好的降噪结果。同时,该算法还引入了快速可分离滤波器(fast separable filter)的思想,通过对滤波器进行一定的优化,使其更加高效。 该算法的训练过程分为两个步骤。首先,使用成对的清晰和模糊图像进行训练,学习引导滤波器中的参数。其次,在测试时,使用该滤波器对任意输入图像进行滤波。该算法可以应用于多种图像降噪应用,如图像去模糊、图像去噪等。 与传统的算法相比,fast end-to-end trainable guided filter 的效果更好,速度更快,具有更好的鲁棒性和可扩展性,可以处理更大的图像数据集。 总而言之,fast end-to-end trainable guided filter 是现代图像处理领域的一种重要算法,它将深度学习的优势与传统的引导滤波算法相结合,在图像降噪、图像增强等方面得到广泛的应用。 ### 回答3: Fast end-to-end trainable guided filter(简称FastGF)是一种基于全可训练的引导滤波器的算法。引导滤波器是一种基于一对输入——引导图像和输入图像,来使输入图像平滑的滤波器。FastGF是引导滤波器的一种新近提出的算法,与之前的引导滤波方法相比有着很多的优势。 首先,FastGF可以通过深度神经网络进行训练,从而使其具有更好的泛化能力。其次,FastGF的计算速度非常快,可以在实时环境下进行使用。最后,FastGF可以很容易地与传统的图像处理算法进行集成,从而提高了它的实用价值。 FastGF可以被用于很多的计算机视觉任务,比如超分辨率、风格迁移和图像去噪。例如在图像去噪中,可以将噪声图像作为引导图像,原始图像作为输入图像,通过计算这两个图像之间的权重来实现图像去噪的目的。 总之,FastGF是一种可广泛应用于图像处理领域的算法。它结合了神经网络和引导滤波器的优点,并具有快速的计算速度和高实用价值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值