基于注意力的卷积神经网络高光谱波段选择

原文

名词

  1. Attention机制
  2. BBs building blocks
  3. DL deep learning
  4. HSI Hyperspectral image
  5. 1D one dimensional
  6. FMs feature maps
  7. EE Elliptical Envelope

概述

它将新的基于注意的卷积神经网络结合起来,根据波段的重要性对波段进行加权,并利用异常检测技术选择最重要的波段。
所提出的基于注意的方法是数据驱动的,在深度体系结构的不同深度重新使用卷积激活,识别光谱中信息最丰富的区域。
模块化,易于实现,无缝适用于任何卷积网络,并可以使用梯度下降训练端到端。

introduction

波段选择技术分为滤波器(无监督)和包装器(监督)算法。 在分类之前应用,过滤方法不需要地面真相数据来选择特定的波段。然而,它们有几个缺点:

  • 很难选择缩小的特征空间的最优维数
  • 波段相关性往往被忽略,导致数据冗余
  • 与其他波段结合时可能具有信息性的波段被删除
  • 由于与其他波段的相关性较低,噪声波段通常被标记为信息性波段。

包装方法使用分类器性能作为目标函数来优化HSI带的子集。 虽然这些方法降低了进一步HSI分析的内存需求,但这些算法引起了严重的计算开销。 在这项工作中,我们减轻了这个问题,并将选择过程纳入了深度网络培训。 到目前为止,尚未探讨这种办法

贡献点

  1. 一个新的波段选择算法
  2. 一种新的基于Attention的CNN结构,用于提取注意热图,显示频谱的哪些部分在CNN训练过程中对CNN很重要
  3. 验证
    • 与HSI波段选择中的最新技术进行比较
    • 验证波段选择对各种受监督学习者(常规和深度学习)的影响
    • 了解将注意力模块附加到CNNs对其分类能力和训练特性的影响;
    • 验证所获得结果的统计重要性

CNN概述

卷积层

在CNN中有两种类型的层:卷积层和池层(它们叠加在一起构成CNN的特征提取部分)。 然后在特征提取器之后是深度网络的分类部分,通常是用全连接层来构建的
本文中 HSI中的每个像素作为1D输入,卷积核也是1维。输出O(i)中的第i项为
O ( i ) = ( I ∗ K ) ( i ) = ∑ j I ( j ) ⋅ K ( i − j ) O(i) = (I*K)(i) = \sum_j I(j)·K(i-j) O(i)=(IK)(i)=jI(j)K(ij)

例子如下
20210112091508

池化层

就是平常一样的
20210112091619

基于Attention 的CNN

输入是HSI中每个像素的光谱维信息。本文的Attention-CNN不修改训练过程中的网络损失。 引入了一个额外的正则化损失,使多个注意热图彼此不同。避免用标准损失函数推断,使注意模块直接适用于CNN-修改损失需要进行灵敏度分析,以适当调整正则化项的权重,从而量化其对损失函数的影响

总体概述

为了减轻注意机制的计算负担,最大值池化层后加入注意模块。该模块由两部分组成

  • 估计器 :提取特征图中最重要的区域
  • 置信门 :为预测产生置信度分数
    还可以修改整个CNN的结构,比如BBs的数量,一个BBs包括一个卷积层和一个最大池化层。本文中的这两个层都是1D的,结构如图
    20210112103343
    不同层次的特征 Z l Z^l Zl进行处理,生成注意力热图,并用于输出(i)基于局部信息的类假设,(ii)置信度 c l c^l cl。最后的输出是注意估计量的Softmax加权和,以及网络分类器的输出(ANN,包含两个隐藏层,包含512个神经元和128个神经元,加个激活函数ReLU),超参数:卷积核大小和池窗口大小(图中表示为K),所有卷积层的核固定为(K=5,单步,填充数为2),所有层的池化窗(K=2,步长2),卷积核数越来越少,降低了计算复杂度。下表给出了输出输出张量的维数:
    20210112113424
    b是HSI的波段数,AB如上上图。

估计器

注意估计器包含单核的1D卷积。核大小为BB提取的特征映射的数量,目的是降维,然后接一个ReLU激活函数和一个softmax 阐述最终关注热点图
F : R b ∗ n → R b ∗ 1 F : R^{b*n} \rightarrow R^{b*1} F:RbnRb1
b和n分别为HSI波段的数目和特征映射的数目,注意估计器将深度为l处的所有特征映射合并为1个特征映射,并构建一个注意热图 Z ^ l \hat{Z}^l Z^l,突出每个activation map中每个条目的重要性。最终产生局部信息输出空间的假设 H l H^l Hl
H l = A v g P o o l ( Z ^ l ⨀ Z l ) H^l = AvgPool(\hat{Z}^l \bigodot Z^l) Hl=AvgPool(Z^lZl)
其中, ⨀ \bigodot 哈达玛积。注意在给定深度l处activation maps的数量可变,从96到54到36.再将 H l H^l Hl通过线性分类器来预测输入的标签
o l = H l W l o^l = H^lW^l ol=HlWl

置信门???

局部特征往往不足以输出高质量的类假设。因此我们将每个注意模块与网络的输出耦合起来,通过gate weight matrix W C W_C WC的内积来预测置信度得分c(在l层)
c l = t a n h ( H l W c l ) c^l = tanh(H^lW_c^l) cl=tanh(HlWcl)
网络最终输出是注意估计量和分类器 o n e t o^{net} onet乘置信分 c n e t c^{net} cnet的加权和
o u t p u t = s o f t m a x ( o n e t × c n e t + ∑ l = 1 ∣ ∣ B B ∣ ∣ c l ⋅ o l ) output = softmax(o^{net}×c^{net} + \sum_{l=1}^{||BB||}c^l·o^l) output=softmax(onet×cnet+l=1BBclol)
Softmax回归将神经网络输出转成概率分布,
p i = e x i ∑ k = 0 C − 1 e x k p_i = e^{x_i}\over{\sum_{k=0}^{C-1}e^{x_k}} k=0C1exkpi=exi
p可用于预测每个传入的HSI像素的最终类标签。

选择HSI波段作为异常检测

利用椭圆包络(EE)算法在最终注意热图的基础上,从输入(全)HSI中提取最重要的,重要波段是少数,所以可以当作是异常值,在EE中,数据建模为具有特征维数之间协方差的高维高斯分布(EE算法的输入张量为B×1).并且椭圆包括大部分数据。椭圆外的样本就是异常,然后EE用快速估计算法3将数据划分为不重叠子样本,计算各特征维数C的均值 μ \mu μ和协方差矩阵,最后提取个样本 x x x的Mahalanobis距离D:
D = ( x − μ ) T C − 1 ( x − μ ) D = \sqrt{(x-\mu)^TC^{-1}(x-\mu)} D=(xμ)TC1(xμ)
然后保存D的最小样本,在EE中,the fractional contamination rate λ \lambda λ 定义了数据集中应该选择多少异常,也就是要选择的波段比例。

  • 1
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值