土翻译:卫星图像开放式土地覆盖分类的典型判别学习

                  卫星图像开放式土地覆盖分类的典型判别学习

简述:

       卫星图像的土地覆盖分类是分析地球表面的重要步骤。现有模型假设一个封闭的集合设置,其中训练类和测试类都属于同一标签集。然而,由于卫星图像具有独特的特点,覆盖材料的覆盖面积极其广阔,因此训练数据必然是不具有代表性的。本文研究了在测试过程中,在保持已知类别性能的同时,识别未知类样本的开放式土地覆盖分类问题。尽管数据本身就是一个分类问题,但数据的代表性和辨别性方面都需要加以利用,以便更好地区分未知类和已知类。提出了一种具有代表性的判别开放集识别(RDOSR)框架,该框架1)将原始图像空间中的数据投影到嵌入特征空间,从而方便相似类的区分;2)通过转换为所谓的丰度空间,提高了代表性和鉴别能力。在多个卫星基准上的实验表明了该方法的有效性。通过在使用RGB图像实现开放集分类任务方面的良好结果,我们也展示了该方法的通用性。

 

1简介

 

       计算机视觉的最新进展,特别是卷积神经网络(CNN)的出现,极大地提高了图像分类[1–3]、检测[4,5]和分割[6,7]任务的性能,使其能够在许多不同的领域部署。其中一个应用领域是卫星图像分析,包括资源管理、城市发展规划和气候控制。土地覆盖分类或材料分类为卫星图像分析的组成部分之一,为一系列后续任务提供必要的输入,包括对象分割、三维重建和建模以及纹理映射。监督土地覆盖分类涉及到将多光谱或高光谱图像像素分类为预定的材料类别,例如沥青、树木、混凝土、水、金属、土壤等。请注意,多光谱和高光谱图像(MSI和HSI)都试图提供可见光谱之外的其他光谱信息,以显示额外的细节并补偿这些图像的粗糙空间分辨率。

 

图1:开放集土地覆盖分类:与地面真相类别相对应的数据样本来自已知类别集(K)。有些类别可能在培训期间不知道,在测试时会遇到,即来自未知类别集(U)的样本。目标是识别来自(U)的像素,同时正确地分类属于(K)的任何像素。从左到右,Pavia大学数据集[8]的卫星图像显示未知材料表面,带有黄色边界框、地面真实标签,以及使用tSNE对已知和未知类的特征空间进行可视化[9]。

 

       尽管卫星图像的材料分类本身就是一个分类问题,但它面临着一个独特的挑战:卫星图像覆盖的广阔区域使得生成具有代表性的训练样本的任务几乎不可能,因为地球表面存在着大量的材料,尤其是那些开发不好的地区。因此,土地覆盖分类最基本的能力之一是能够自动识别图像的哪个测试图像以及图像的哪个区域或像素位置,具有更高的承载新类别材料的概率。这将为人类操作员收集新课程的培训样本提供基本指导。

       绝大多数土地覆盖分类的现有工作都是在“静态封闭世界”假设下完成的,这意味着培训和测试集都是从同一个标签集中提取的。结果,观察到任何未知类的系统都会被迫将其误分类为已知类之一,从而削弱了识别性能。一个更现实的场景是在一个非静态和开放的环境中工作,而不是所有类别都是先验已知的而且,来自不可见类的测试样本可能会意外出现。在给定图像中识别已知和未知像素并正确分类已知像素被定义为“开放式土地覆盖分类”。图1使用真实的卫星图像解释了这个过程

       在本文中,我们提出了一个多任务有代表性的区分性开放集识别(RDOSR)框架,以解决具有挑战性的土地覆盖分类问题,即利用数据的代表性和区分性,以便最好地描述已知和未知类之间的差异。我们提出了三个空间之间的代表性和区分性学习,如图2所示,包括1)从原始图像空间到嵌入特征空间的转换,以及2)从嵌入特征空间到所谓的丰度空间的转换。不同空间的效果说明见附录A

图2:通过原始图像空间、嵌入空间和丰度空间三个空间之间的变换进行典型的判别学习。

 

       本文的主要贡献如下:第一,与其他直接应用于原始图像空间的开集识别方法不同,我们建议首先学习一个分类网络,该网络将从原始图像空间转换为嵌入特征空间,以便将更清晰的输入特征输入到后续的开放集学习网络中。第二,我们提出使用所谓的Dirichlet网将数据从嵌入特征空间转换到丰富空间。由于分辨率问题,卫星图像中的每一个像素都覆盖了一个以上的组成材料的大面积区域,造成了“混合像元”。通常假设混合物是几个光谱基的线性组合,以及相应的混合系数(或丰度)。这样,我们就不用看混合像素,而是研究组成混合物时每个光谱基的混合系数。因此,丰度空间提供了一个更好的尺度表示。第三,据我们所知,这项工作是首次尝试解决对分析地球表面至关重要的开放式土地覆盖分类问题。第四,该方法以卫星图像分析为动力,可推广到RGB图像,取得了良好的效果。

2相关工作

       传统土地覆盖分类。这些方法主要采用传统的光谱信息分类器,通过特征工程算法,如最小噪声分数(MNF)[10]、独立成分分析(ICA)[11]、形态学特征[12]和光谱分解[13-15],进一步增强了其识别能力。深度学习技术的出现使得层次特征的自动提取成为可能,并取得了前所未有的性能。[16,17]在光谱域中应用了1D-CNN框架,以考虑相邻光谱带之间的相关性。一些作品通过采用2D-CNN结构[18,19]来使用围绕所需像素的补丁来合并空间相关性。最近,使用3D-CNN结构对光谱和空间域进行了整合,以进一步提高分类精度[20,21]。

       尽管每种方法都有其自身的优点,但所有现有的土地覆盖分类方法都是在封闭集假设下工作的,即训练集和测试集共享同一个标签集。

       开放集识别。在对未知样本的处理过程中,由于对未知样本集的不完全识别得到了相当大的关注。早期的研究基于传统的分类模型,包括最近邻、支持向量机(SVM)、稀疏表示等。最近邻的开放集版本是基于测试样本与已知样本的距离[22]。基于支持向量机的方法使用不同的正则化项或核来检测未知样本[23,24]。在[25]中,基于稀疏表示的分类(SRC)算法的残差被用作未知类检测的分数。

       另一种方法是在SoftMax的背景下,使用一种叫做OpenMax的统计模型来校准网络。[27]通过最大化类间距离和最小化倒数第二层的类内距离,改进了OpenMax层方法。[28]的工作提出了一种基于k-sigmoid激活的损失函数,用于训练神经网络,使其能够在最终激活层上找到一个工作阈值。[29]结合了从分类模型中获得的鉴别特征和用于重建的潜在表示,以增强用于开放集检测的特征向量。与以前的方法不同,[30]利用从多任务学习框架中获得的重建误差作为检测分数。最近,[31]提出了利用自监督和增强输入图像来学习更丰富的特征来改善类之间的分离。

       最近的研究试图模拟开放集类,以便对未知类提供显式的概率估计。Ge等人。[32]通过使用基于生成性对抗网络(GAN)的框架合成未知样本,扩展了OpenMax[26]。按照同样的思路,[33]提出了反事实图像生成(OSRCI)框架,该框架使用GAN来生成放置在决策边界之间的样本,这些样本可以被视为未知示例。[34]提出了类条件自动编码器(C2AE)算法,其中条件重建有助于学习已知和未知的分数分布。

       值得注意的是,文献中有一些相关问题,包括离群点检测[35,36]和异常检测[37,38],这些问题与开放集识别有一些重叠,可以看作是开放集识别的放松版本。这些问题假设在培训期间有一个不正常的班。然而,一般的开放集识别问题通常不会事先提供未知类的类型或数量的信息。

图3:提出的框架的概述:i)闭集嵌入学习:分类器F在谱域X上训练,产生潜在的区分嵌入zF。ii)代表性判别特征学习:编码器E取嵌入特征zF,利用Dirichlet网络导出代表性特征S。应用于S的分类器C增强了S的区分性,解码器输出(ˆzF)和输入到编码器(zF)之间的重建误差增强了S的代表性。

3提议的方法

       我们提出了一种典型的区分开集识别(RDOSR)结构,如图3所示。该网络主要由两个部分组成:1)一个闭集嵌入组件,将原始图像域中的数据投影到嵌入域中,使得具有相似光谱特性的不同类别更容易区分,以及2)多任务表征性描述学习组件,在丰富的空间中以适当的比例学习更好的表示方案,从而使未知类更好地区别于已知类。

3.1网络架构

       开放式卫星土地覆盖分类问题的一个挑战性问题是不同类别可能具有相似的光谱特征。因此,它是一个未知的类,其光谱特性接近已知类,很可能被误分类为已知类。为了解决这个问题,我们不再在图像域上检测未知类,而是在闭集嵌入层投影的嵌入域上检测它们,如图3.i所示。闭集嵌入层在很大程度上提高了网络的识别能力,这样,即使未知类的光谱与已知类的光谱相似,也能更好地被识别。闭集嵌入层的权值用一个分类器F来训练,这在第二节中进一步阐述。3.2条。

       为了识别嵌入域中的未知类,我们提出了一个多任务代表性判别特征学习框架,以提高提取的特征向量的代表性和鉴别能力,使未知样本的识别更具信息性和有效性。如图3.ii所示。该网络由一个编解码器结构和一个由已知类之间共享的基组成的解码器,该结构使用稀疏Dirichlet编码器E提取代表性特征。为了进一步提高其鉴别能力,还包括了应用于S的分类器C。这样,输入到网络中的未知类的数据将产生更高的重构误差,从而可以进行相应的检测。第二节对网络设计的细节作了进一步的阐述。3.3条。

3.2闭集嵌入学习

       给定已知的每个像素席的类Xk={x1,x2,…,xnk}的集合,即高维向量记录高光谱图像中的二次光谱带的重新读出读数,对应的标记用Yk= {y1,y2,…,ynk}表示,其中Nk是已知像素的数目,并且y1 {1,2,…五十} ,其中L是已知类的数目。为了区分光谱分布相似的类,我们将输入数据Xk从图像域投影到嵌入域ZF。投影是通过一个分类器F学习的,带有参数ΘF和嵌入特征,zF通过交叉熵损失强制区分,

       其中Yi是一个热编码标签,F(席)表示携带第i已知样本的预测概率得分的向量。该向量通过在嵌入域中对特征zF应用softmax函数来生成。

       对于已知遇到的类的常见分类问题,这种一般结构是不够的。然而,我们的目标是提高特征对具有相似光谱特征的类的区分能力。因此,我们进一步提高了嵌入特征的识别能力,其中l1范数稀疏约束由

       其中,zFi是由分类器F学习的嵌入特征向量。在这样的约束下,来自不同类别样本的嵌入特征更具辨别力,即使它们在图像域中的光谱相似。

3.3多任务代表性判别特征学习

       利用所提出的闭集嵌入层,将样本从图像域投影到具有更多可分辨特征的嵌入域。为了更好地识别未知样本,需要充分利用样本的鉴别性和代表性。以前的方法[30,34]通常训练一个通用的自动编码器从已知的类中重构样本。由于在训练过程中利用已知样本对网络权值进行了优化,当未知类的样本输入到网络中时,在理想情况下重构误差将大于已知类的重构误差。然而,挑战在于未知类尤其是接近已知类的类也可能导致较小的重建错误,从而导致检测失败。

       在这项工作中,我们提出一个多任务代表性鉴别特征学习架构,以提高侦测的准确性。该网络的目的是减小已知类的重构误差,同时加大未知类的重构误差。

       由于分辨率问题,卫星图像中的每个像素通常覆盖较大的地理区域或足迹(例如,Landsat-8为30×30米),从而产生所谓的“混合像素”(即每个像素往往覆盖一种以上的组成材料)。这些混合物通常被假定为几个光谱基与相应的混合系数(或丰度)的线性组合。所提出的方法是基于这个假设而设计的,如等式3所示。假设已知类样本的特征向量zF是几个基B的线性组合,这些基在已知类的特征之间共享。因此,每个已知类的样本可以用

       其中s表示共享基的比例系数,作为嵌入特征的“表示”形式,我们称之为丰度。丰度向量或表示应满足两个物理约束,即非负和和为一。来自未知类的样本也可以使用已知类B的共享基被等式3分解。然而,由于B不包括未知类的基,其表示的分布应该偏离已知类的分布。因此,我们按照等式3的模型设计了一个网络,它从已知的类中强制遵循一定的分布。如果网络能够从分布相似的未知类中提取s,那么我们期望它们具有很高的重构误差。

图4:多任务代表区分特征学习框架的流程图。

       所提出的多任务代表性判别特征学习的流程图如图4所示。网络同时执行重建任务和分类任务。重建分支由一个基于稀疏Dirichlet的编码器E和权重为ΘD的解码器D组成。编码器和解码器可以分别由函数E:ZF→S和D:S→ZF定义,其中ZF是闭集分类器F获得的嵌入空间,其中S是编码器E投影的潜在表示的丰度空间,S中的表示强制服从Dirichlet分布。并引入稀疏约束来增强s的代表性。下面将提供更多细节和证明。此外,S还被分类符C强制区分,它可以由函数C:S→Y和权重ΘC定义,其中Y是已知标签的空间。

基于重构的代表性特征学习重构分支根据式3构造,其中共享基嵌入到网络    的解码器D中,相应的表示用编码器E提取。由于s表示基的比例系数,我们强制它遵循一个Dirichlet满足非负和一个物理约束的分布。在文献[39–41]的基础上,我们在编码器中采用了断棒结构来加强表示,使其符合Dirichlet分布。

       在断棒结构中,单个元素sj In s可表示为

式中,vj来自Kumaraswamy分布,即vj∼Kuma(u,1,β),如公式(5)所示,

       然后,使用两个参数来提取表示s,即u和β,这两个参数都是网络编码器中的隐藏层。由于β层的非负特性,在β层上采用了softplus激活函数,并使用sigmoid将u映射到u层的(0,1)范围内。关于断棒结构的更多细节,请参见[40]和[41]。

       此外,采用熵函数[42]来增强表示层的稀疏性。设ˆsj=|sj | ksk,对于每个像素,熵函数定义为,

其中c是表示s的维数,采用重建损失Lr来减小已知类的重建误差。定义如下:,

其中,zFi是馈入编码器E的嵌入特征向量,而ˆzF是从解码器D获得的重构zFi。

区分特征学习与分类分支。为了进一步提高表示的识别能力,对表示s采用了一个分类器,分类损失Lc定义为:,

其中,yi为基本真值标签,E(zFi)表示第i个已知样本的代表性特征向量。注意,重构分支和分类器C的权重一起更新,使得学习到的表示既具有代表性又具有区分性。

3.4培训程序和网络设置

我们首先通过使用损失函数优化分类器F的权重ΘF来学习嵌入投影,

其中,λf和λz是平衡交叉熵损失和稀疏度损失之间权衡的两个参数。

 

然后,利用所学习的嵌入层,训练多任务代表性描述特征学习网络,以最小化具有损失函数的已知类的重构损失和分类误差,

其中,λr、λs和λc是平衡重建损失、稀疏性损失和分类损失之间权衡的参数。

       表1列出了F、E、D和C四个网络的结构。

4实验和结果

在本节中,我们将在几个广泛使用的基准高光谱图像数据集上评估所提出的RDOSR方法的有效性。此外,我们还证明了该方法在RGB图像数据集上的泛化能力。此外,通过烧蚀研究,分析了该框架各组成部分的贡献。

 

4.1实施细则

       我们训练网络,如第节所述。3.1,使用Adam优化器[43],学习率为10-3。分类器F和编解码器assister(E-D-C)的联合结构分别针对15K个周期进行训练。然而,其他不含两个独立分量的方法则是针对6K个时代进行训练的。

       对于训练,分类器F、λF和λz分别设置为1和0.1。训练E-D-c结构时重建λr、稀疏度λs和分类λc损失的权重分别设置为0.5、10-3和0.5。稀疏度权重λs衰减为0.9977。对分类器F进行训练,直到其精度达到0.9988。需要注意的是,数据集的所有输入数据都标准化为其均值和单位方差。此外,从分类器F获得的特征向量除以10以避免散度。

       影响开放集识别算法性能的一个因素是问题的开放性[44],定义为,

其中Ntrain、Ntest和Ntarget分别是培训期间已知的类数、测试期间给定的类数以及测试阶段需要正确识别的类数。在实验中,每个数据集的类根据开放性划分为已知集和未知集。

 

代码是用TensorFlow编写的,所有的实验都是在一台拥有10gb内存的GeForce GPU的台式计算机上进行的。代码可在https://github.com/raziehkaviani/rdosr

 

4.2指标

       为了比较不同方法的性能,有几个指标,包括已知和未知类别组合的总体准确度或F分数,以及接收器工作特性(ROC)。前两个指标不能很好地描述模型的性能,因为它们不仅对模型在分类已知类时的性能敏感,而且对检测未知样本的操作阈值也很敏感。

       另一方面,ROC曲线将说明二元分类系统(这里,已知检测与未知检测)的能力,因为判别阈值从给定检测度量的最小值到最大值变化(这里是重建误差)。因此,它提供了一种无需校准的测量方法。为了进行定量比较,在实验中计算了ROC下的面积(AUC)。

 

4.3高光谱数据的开集识别

实验在三个高光谱图像数据集上进行:

       帕维亚大学(PU)和帕维亚中心(PC)。2011年,反射光学系统成像光谱仪在意大利北部采集了钚和聚碳酸酯数据集,分辨率为1.3米。钚数据集的尺寸为1096×715像素,103个光谱带,范围从430至860纳米。PC数据集有610×340像素,102个光谱带。PU和PC数据集都包括9个土地覆盖类型。

       印度松(IN)。1912年,在印第安纳州西北部,通过机载可见/红外成像光谱仪(AVIRIS)采集了IN数据集。它的尺寸为145×145,像素分辨率为20米,光谱带为200个。其基本事实包括16个土地覆盖类别。

       我们将提议的方法与以下三种方法的性能进行比较:

       SoftMax:在神经网络分类器中,检测开放集示例的一种常见的基于可信度的方法是对SoftMax分数进行阈值化。我们在不考虑稀疏性约束的情况下使用了分类器F的网络结构。

       OpenMax[26]:此方法校准Classifier中的SoftMax分数,并使用Nk+1类对未知类别进行增强。使用OpenMax层替换的SoftMax层用于开放集识别。我们收养在SoftMax方法中前面提到的分类器,并使用Weibull fitting方法和参数Weibulltailsize=10来生成OpenMax层值。

       AE+CLS:MLOSR的全连接版本[30],它利用多任务学习框架,由分类器和解码器组成,具有共享的特征提取部分,用于检测开放集示例。为了与我们的方法进行公平的比较,编码器、解码器和分类器被设计为我们的E(不带Dirichlet网)、D、C,并经过lr和lc损耗训练,权重为0.5。

       首先,假设每个L类都是未知的,这等于PU、PC、IN的开放度分别为2.99%、2.99%和1.63%。对于表2中的每种方法,平均并报告对应于将每个L标签选择为未知的AUC值。结果表明,该方法在三个数据集上都优于其他方法。关于PU数据集的详细比较,见附录B。PC数据集的微小改进可以通过其不同类别的不同光谱来确定,这降低了分类F的影响。

       第二,当开放度等于6.46%时,PU和IN数据集中不同方法的ROC曲线如图5所示。从两个数据集的结果来看,AE+CLS+Dirichlet方法是在AE+CLS框架中采用Dirichlet网的方法,并且该方法优于其它方法。值得注意的是,我们所提出的方法对于PU和PC数据集,能够分别以60%和90%以上的准确率检测未知类,并且几乎没有错误检测。

       第三,图6示出了开放度为2.99%的已知集和未知集的重建误差直方图。可以观察到,与已知集合相对应的重建误差值较小。然而,未知集由于在从已知类示例中学习到的代表性和区分性特征方面的不匹配而产生较大的误差。

 

       4.4 RGB图像的开集识别

       为了证明该方法的泛化能力,我们在两个RGB数据集上对该方法进行了性能评估,并与传统的方法进行了比较几种最先进的方法。为此,使用以2D图像为输入的DenseNet结构替代执行像素级分类的分类F。

       表2:开放集检测的ROC曲线下面积。将所选数据集划分为L-1个已知类和1个未知类,计算结果的平均值。

图5:PU和PC数据集的开放集识别接收器工作曲线曲线,L=7(开放度=6.46%)。

 

图6:L=8时,使用提出的方法对PU和PC数据集重建已知和未知类的误差分布。

 

       按照[33]中的方案,我们从CIFAR10[45]中抽取了4个已知类,开放度为13.39%,TinyImageNet[46]的200个类别中抽取了20个已知类,开放度为57.35%。表3总结了除建议的RDOSR外的值取自[31]的结果。可以观察到,除了GDOSR[31]在CIFAR10上的性能,所提出的方法比所比较的方法具有更好的性能。然而,它在TinyImageNet上取得了显著的改进。这可能是由于TinyImageNet中的类之间的相似性阻碍了在图像空间中检测未知样本,而RDOSR通过在嵌入空间中操作来解决这个问题。

表3:开放集识别的ROC曲线下面积。

 

4.5烧蚀研究

                            图7:PU数据集上建议方法的烧蚀研究

       从基线AE+CLS开始,逐步将每个组件添加到框架中,以显示其有效性。烧蚀研究的结果如图7所示。可见,在光谱域采用基线结构的性能最差。然而,由于对编码器E学习的潜在空间应用了物理约束,因此添加基于Dirichlet的网络有了很大的改进。直接在嵌入空间上执行openset识别会导致不稳定性问题,与AE+CLS+Dirichlet方法相比,该问题由性能下降引起。我们提出的方法通过在嵌入特征向量zF上引入稀疏约束来解决不稳定性问题。如图7所示,与其他三种基线方法相比,我们提出的方法实现了最高的AUC值。

 

5结论

       研究了卫星图像中开放集土地覆盖识别的挑战性问题。虽然本质上是一个分类问题,但为了最好地描述已知类和未知类之间的差异,需要学习代表性和区分性特征。我们提出了原始图像空间、嵌入特征空间和丰度空间之间的转换,在这些空间中可以学习具有代表性和区分性的特征,从而使成功率最大化。在三个高光谱图像和两个RGB图像数据集上对所提出的多任务代表性判别学习结构进行了评估,与最新的开放集识别算法相比有显著的改进。

6 参考文献

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值