Deep Pyramidal Residual Networks for Spectral-Spatial HSIs Classification(2019)——深度学习论文笔记(二)

Deep Pyramidal Residual Networks for Spectral-Spatial Hyperspectral Image Classification(2019)

The proposed method makes use of 2-D-CNN approaches, implementing 2-D layers. However, all the spectral bands will be used in order to create the input data blocks pi,j ∈ RN×d×d instead of reducing the original spectral signatures using PCA. This will allow us to extract not only spatial information but also spectral information, in a fast and integrated way, performing a full spectral–spatial feature extraction and further allowing 3-D processing. In particular, four kinds of CNN layers will be used by the proposed architecture.

Abstract

  CNNs在图像处理任务上表现良好,但由于高光谱影像自身的复杂性(高维,信息冗余,有噪声等),标准的CNN方法不能提取出discriminative spectral-spatial features。此外,更深的CNN架构的层数增加时,收敛速度下降,分类精度降低。
  为了解决上述问题,论文展示了一个为高光谱影像设计的深度CNN框架。设计新模型的目的是改善spectral-spatial features。具体而言,CONV层被组合在pyramidal bottleneck residual blocks中,the proposed residual-based approach在所有的CONV层中逐渐增加feature map的维度,以便随着网络深度的增加涉及更多的locations,同时平衡各单元的负载,保持每层的时间复杂度。金字塔模型中,随着块的深度增加,能提取更多的feature maps。因此,提出的方法能够在每一层中逐渐增加high-level spectral-spatial attribute的多样性,从而使得该方法在HSIs中表现良好。
  选择4个HSI数据集和10种分类方法做实验,结果表明相比其他分类方法,论文提出的HSI pyramidal residual model在分类精度和计算时间上都有显著的优势。

1.INTRODUCTION

  HSIs通过上百个窄光谱波段来同时提供详细的光谱和空间信息。因此HSIs可通过分析ROI中的光谱和空间特征进行物质识别。
  文献中已提出了许多非监督高光谱分类方法和监督高光谱分类方法。非监督分类方法不需要监督分类的训练过程,随着信息论方法(信息论方法能揭示数据之间的相互影响和联系,对遥感数据的管理和分析十分有用,能够处理HSI自身的复杂性)的加入,更多的非监督分类方法被提出。如一种基于数据驱动发现的非监督特征提取分类方法,它利用最大化互信息基于互信息的特征选择算法MATLAB实现来获取最相关的特征;另一种利用基于熵的特征提取基于熵的特征提取和帕累托最优标准Pareto optimality criteria来检测相关的HSI数据模式从而更好地分类。
  监督分类方法通过训练集中的ground-truth信息来学习数据关系,比非监督分类方法精度高。过去有很多监督机器学习方法用于HSI分类,如SVMs,kernel-based method机器学习中的核方法(Kernel Method),统计方法(PCA,logistic regression),Bayesian models,random forest(RF),neural networks。①但由于HSI的内在复杂性,尤其在一些challenging scenarios中,很多方法不能一直提供高精度的分类结果。②而且HSI的训练样本相比可用的光谱波段数量太少,导致训练不完全易于过拟合,即Hughes现象(在高光谱分析中过程中,随着参与运算波段数目的增加,分类精度“先增后降”的现象。)高光谱影像中的Hughes现象③此外,因为连续波段的高相关性和传感器等设备引入了信号扰动,HSI中存在一些光谱信息冗余和噪音。
  一些策略被用来解决上述问题,提高HSI分类精度。包括feature extraction,band reduction,data augmentation,active learning techniques,其中最热门的研究是发展spectral-spatial classifiers,它比pixelwise classifiers表现要好,因为它同时考虑了spectral signatures信息和spatial-contextual信息。low-rank Gabor filtering对于spatial-spectral HSI classification十分有效,这类方法将每个像元与其邻域的大小和形状组合起来以减少分类的不确定性。因此我们需要一个功能强大的模型来开发HSI的spectral-spatial components。
  监督深度学习模型正是这样一个功能强大的模型。深度学习背后的思想是用分层表示方法从原始数据中提取更抽象的语义特征,即从feature space到label space的非线性映射,通过层层次实现更高的表达能力。Chen等提出一种SAE,利用spectral-spatial information可为HSI分类提取high-level features。Zhao等提出stacked sparse sutoencoder,从spectral feature sets,spatial feature sets,spectral-spatial vectors中逐层提取更抽象和深层次的特征,最后用随机森林做分类。Li等提出DBN,用于提取spectral-spatial feature和高光谱影像分类。Zhong等提出了a diversity promoting prior into the pretraining(unsupervised) and fine-tuning(supervised) of the DBN model。
------------------------------------------但是上述模型的输入都是flat spatial HSI patches(一维),不能有效利用spatial information。----------------------------------------
  Ma等提出了a spatial updated deep autoencoder,用周围样本的加权平均代替每个特征,提取jointly spectral and spatial features。Chen等用于HSI分类的CNNs。比起SAE和DBN,CNN模型的输入为spatial HSI patches,提供了一种包括空间信息的更自然的方式,同时增强了分类表现。
  文献记载了几种利用spectral-spatial features进行高光谱分类的CNN-based模型。pixel-based方法之后,Mei等提出一种通过预处理每个像元来融合spectral signatures和spatial context的方法,即calculating the mean of the pixel neighborhood and the mean and standard deviation per spectral band of this neighborhood。Li等结合pixel pairs和CNN model,利用多数投票算法majority voting algorithm来获取最终的分类结果。Yang等和Zhang等提出用2个CNN分别提取光谱特征和空间特征(第2个CNN与PCA结合来提取空间特征),最后将2个CNN用softmax regression classifier结合在一起。Zhao等将用CNN model提取的spatial feature和用局部平衡判别嵌入(balanced local discriminant embedding,BLDE)提取的spectral feature结合,堆叠得到的特征,最后进行分类。这些方法还是没有充分利用joint spectral-spatial correlation information。然而,deep models(另外几个文献中提出的)能从原始的HSI中得到data 3-D blocks,对每个像元及其空间邻域还有光谱信息与3-D卷积核做卷积运算,学习到光谱特征和空间特征。
  但由于梯度下降,利用HSI数据训练非常深的CNN模型十分困难,deep CNN的精度会很快饱和然后下降。ResNet基于residual blocks,使得每个block接近identity mapping而不是zero mapping,在每一个residual block间加上shortcut connection使得它们能够接收到更多detailed information而不只是abstract information。因此在HSI分析和分类方面,ResNet modelsstandard deep CNNs表现得更出色。
  论文提出a new ResNet model based on pyramidal bottleneck residual units,它由几个stacked convolutional layers的residual block组成,有些residual block的output层比input层大,又称为diabolo architecture。利用这种结构,原始HSI cube的spectral channels number在每个block中逐步增加,造成一种金字塔的错觉(更深的residual units可以提取更多的feature maps,从而从原始HSI cube中学到更多的robust spectral-spatial representations)。然而,pyramidal bottleneck residual units十分耗时,需要用GPUs来加速。实验结果表明模型比spectral-spatial CNN和baseline HSI-ResNet表现更为优秀,而且不需要很多训练样本。

  第2部分具体描述所提出的方法,第3部分将提出的方法与其他最新的HSI方法进行比较,第4部分总结论文并对未来的研究方向提出了一些看法。

2.METHODOLOGY

  首先,设置符号约定并综述classic CNN方法,同时强调其与论文提出方法之间的联系。
  其次,介绍the proposed hyperspectral pyramidal ResNet model。

A.Convolutional Neural Network

  Traditional neural network(deep orshallow ones)是包括FC layers的1-D architecture,如multilayer perceptrons(MLPs),AEs,DBNs等,它们导致高光谱影像空间域包含的2-D数据信息损失。而不同的CNN models能够分别提取spectral information,spatial-contextual features,spectral-spatial features。而且CNNs在每层中使用局部连接通过分享权值来减少spectral-spatial依赖。
卷积神经网络(CNN)之一维卷积、二维卷积、三维卷积详解
  根据CNN layers的架构和input的类型(the pixel vector,the spatial region,the spectral-spatial region)可将CNN分为三种类型:1-D-CNN,2-D-CNN,3-D-CNN。
在这里插入图片描述
  论文提出的方法为2-D-CNN方法,但是没有使用如PCA,ICA等降维方法,而是使用了原始HSI的所有光谱波段,输入为p(i,j)(∈[N×d×d]),输出还是为n个feature maps,channels由上图的1变为原始HSI的光谱波段数N。提出的架构中使用了4种CNN layers:CONV层,BATCH-NORM层,Nonlinearity层,POOL层。

B.Proposed Hyperspectral Deep Network for Spaectral-spatial Classification

在这里插入图片描述
  提出的ResNet包括C,P1,P2,P3,output四个modules,其中P1,P2,P3 module包括三个residual units,每一个residual units包括一些stacked layers(normally CONV layers stacked with ReLUs,and BATCH-NORM layers)。提出的ResNet有两种connections:1.the feedforward connection that connects layer-to layer;2.the skip or shortcut connection between each residual unit。两种连接对应着两种运算:1.residual learning by feedforward connections;2.identity mapping by shortcut connections。
在这里插入图片描述
  普通的CNN分类模型如AlexNet,VGG等直接学习从输入pj到pj+1的映射H(·),通过H(pj+1)=(H(pj)-pj)+pj的变换,ResNet不学习映射H(·),而是学习残差H(pj)-pj,这能加快收敛,减少计算时间。上图中残差单元的输入pj经过residual learning后得到F(pj,Wj),经过identity mapping得到h(pj)(h(pj)能够保证与F(pj,Wj)的维度一致),将两者相加得到yj=F(pj,Wj)+h(pj),在将yj输入下一个残差单元之前还要经过ReLU函数激活。
  有三种residual unit architectures——Traditional residual units,Bottleneck residual units,Pyramidal bottleneck residual units。Traditional residual units每一个CONV层都有相同结构,Bottleneck residual units用1×1的卷积结构控制了7×7或8×8的输入输出特征图数,Pyramidal bottleneck residual units output的feature maps的通道数多于input的feature maps的通道数,这使得恒等映射需要经过维度的处理,让pj和F(pj,Wj)维度一致。(h(·)—>h※(·),zero-padded identity-mapping)
  然而这些残差单元只用于spatial feature的提取,**论文第一次提出a new residual unit inspired by pyramidal bottleneck residual units to perform spectral-spatial classification of HSI data。**将原始HSI数据X归一化,在经过border mirroring处理边界后,将p(i,j)作为输入,模型包括input module,three pyramidal modules(P1,P2,P3),output module。Input module包括BN layer和CONV layer(size:N×k1×k1,number:n1),进行初步的spectral-spatial feature提取;Pi(i=1,2,3)中包含3个residual units,每一个residual units的结果为:BN1-CONV1-BN2-CONV2-BN3-CONV3-ReLU。构建好了每一个spectral-spatial pyramidal bottleneck residual block后,output feature map可以用下图中的式子算出来。
在这里插入图片描述
式中i为第i个module,j为第j个residual unit。P2,P3中的第一个residual unit的CONV2的stride为2,且第一个residual unit的末尾加了一个downsampling layer(average pooling,用来减少方差和从空间邻域中提取low-level features)。
---------------------------traditional two rules of residual units--------------------------------
在这里插入图片描述
如下图中stride=2时,特征图尺寸减半,则滤波器数量加倍。
在这里插入图片描述
---------------------------using the pyramidal ResNet approach------------------------------
  不是在特定的units中双倍增加feature map的深度,而是在每个unit中逐渐增加feature map的深度,通过下图中的式子可计算出经过每个residual units后的feature map的深度。
在这里插入图片描述
N(net)代表residual units的总数(9个),A=N,α=50。

3.EXPERIMENTS

A.Hyperspectral Data Sets

  使用4个高光谱数据集:Indian Pines(IP),University of Pavia(UP),Salinas Valley(SV),Kennedy Space Center(KSC)。
在这里插入图片描述

B.Experimental Configuration

  (different HSI data sets,multiple training percentages,several input spatial sizes)
在这里插入图片描述
  利用四个实验分别从与standard classifier对比的角度(experiment 1);使用不同的训练样本比例的角度(experiment 2);与最新的两个CNN-based spectral-spatial classifier(SSRN、DFCNN)对比的角度(experiment 3和experiment 4)来综合验证提出模型的表现。使用OA,AA,Kappa系数三种定量指标。硬件环境为第六代英特尔酷睿i7-6700K处理器,有8M的Cache,超过4.2GHz(4核/8线程多任务处理),40 GB的RAM DDR4系列2400 MHz的速度,GPU为NVIDIA GeForce GTX 1080,有8 GB GDDR5X视频内存和10 GB / s的内存频率,一个东芝DT01ACA与7200 RPM HDD和2TB的capacity,一个华硕主板Z170。软件环境为Ubuntu 16.04.4 x64作为操作系统,CUDA 8和cuDNN 5.1.5和Python 2.7作为编程语言。

C.Experimental Results

Experiment 1中MLP,2-D-CNN,3-D-CNN和the proposed approach都用GPU加速。比较了6种方法的OA,AA,Kappa系数,计算时间。
在这里插入图片描述
在这里插入图片描述
Experiment 2
在这里插入图片描述
Experiment 3
在这里插入图片描述
Experiment 4
在这里插入图片描述
上表中有些没有填的结果是因为the proposed approach达到了最优结果。

D.Discussion

  论文提出的方法不仅平均精度最高,而且HSI数据集中每一类的分类精度结果也最高,OA,AA,Kappa系数比第二名的3-D-CNN平均改善了1.59,2.31,1.83。对于所有的训练样本比例,提出的方法都可以表现得很好,而且该方法收敛至最大精度的速度最快。
  Spectral methods易产生噪音,spatial method容易根据输入的spatial size改变物体形状,spectral-spatial methods没有上述这两种问题。不管spatial size为多少,提出的方法都比SSRN有更高的精度和更小的方差。
  SVM和RF的最优参数搜索任务十分耗时,提出的方法比2-D-CNN和3-D-CNN的耗时分别高了25%和43%

4.CONCLUSION

  论文提出一种novel CNN-based network architecture for HSI,它改变了简单的残差模型公式,在每一个CONV layer中逐渐增加feature map的维度。实验表明新模型比其他现有模型表现得更好。
论文有两个主要结论:1.由于新方法逐渐增加特征图维度,所以能够考虑到更多的光谱-空间特性;2.新方法在不同的训练样本比例是能保持分类精度的一致性。
待解决的问题:1.研究优化模型参数的新方法来减少计算时间;2.发展新模型的并行处理方法;3.将新分类方法与advanced data augmentation和active learning schemes结合。

Swear to be overdramatic☀ and true❤ to the world
我发誓将以极致的热忱与真诚,献与这个美丽的世界。

单词
在这里插入图片描述
后记
  完成于9/22晚上9:03,硬啃完的第二篇深度学习论文,读了好几天,又写了两三天,终于完成了论文阅读笔记的输出。

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

immortal12

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值