论文学习笔记:高分辨率遥感影像解译中的机器学习范式

        来源:National Remote Sensing Bulletin 遥感学报

        作者:周培诚、程塨、姚西文、韩军伟

        1. 西北工业大学 深圳研究院 , 深圳 518057;
        2. 西北工业大学 自动化学院 , 西安 710072

        传统的高分辨率遥感影像解译通常采用人工目视解译方式,费时费力且精度低。所以,如何自动、高效地实现高分辨率遥感影像解译是亟待解决的问题。


文献核心内容:

全监督学习:需要大量的标注数据,进行特征选择和分类器训练。常见的分类器有支持向量机(SVM),K-最近邻、 决策树、随机森林、概率图模型等。

半监督学习少量标注数据+大量未标注数据的情况下,用大量未标记样本改善性能。主要包括纯半监督学习、直推学习和 主动学习等3种类型。纯半监督学习就是开放世界,假定训练数据中的未标记样本并非所有待测样本,直推学习是封闭世界,即未标记样本是所有待测样本

弱监督学习:在监督信息较弱的情况下训预测模型

无监督学习:在没有任何标注信息的情况下训练模型,包括聚类、主成分分析、稀疏表达等。

深度学习:是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更加抽象的含有语义信息的高层特征,从而最终提升分类或预测的准确性。包括堆栈自编码机、深度信念网络、卷积神经网络、循环神经网络和生成对抗网络。


       基于不同的机器学习范式,总结了在遥感影像解译任务目标检测、场景分类、高光谱图像分类、语义分割、目标识别等中的应用。


文献相关知识的补充:


支持向量机(SVM)—— 软硬通吃分类大法

        SVM最初提出是为了解决二分类问题,在日常生活中也经常会遇到二分类问题,也就是简单的是否、有无问题,例如借贷问题,我们根据一个人的收入、职业、存款等相关因素进行分析,判断是否可以进行借贷。

        其基本思想就是找一个决策边界使得边界间隔最大,如果数据分布在数轴上,那可以找一个点进行分类,如果数据分布在平面上,可以找一条线进行分类,如果数据分布在三维空间,可以找一个平面进行分类,也就是维度等于n的时候,我们可以找到一个n-1维度的超平面来进行分类,分离的目的就是找到使决策边界最大化的那些支持向量,而所谓的支持向量就是到决策边界距离最小的点,这种理想情况被称为SVM硬分类。SVM软分类就是允许一定的错误但追求总体的最佳效果,用来解决过拟合问题。

       然而实际当中会遇到更加复杂的问题,SVM就会运用核技巧,通过核函数把低维空间数据映射到高维空间,多数情况下高斯核效果不错,它能捕捉非线性特征,而且需要调整的参数也很少,虽然SVM在大规模数据处理上已无法和深度学习相提并论,但是在小样本任务上依然有着不错的效果。


K-最近邻 —— 少数服从多数原则

      有三个要素:第一就是判断点之间的距离度量,也就是距离远近;第二就是选择参考点数量,也即是K的值,第三就是分类决策规则,也就是多数投票策略,少数服从多数。


随机森林 —— 以弱博强

        随机森林是集成学习的典型算法,随机就是随机从数据集中采样,以训练模型中的每颗决策树,森林就是包含很多决策树,随机森林和决策树有异曲同工之妙,一个向上一个向下,所谓的决策树就是从根节点开始一步步走到叶子节点,如何选择根节点是决策树的核心,单棵决策树有着共同的起点,这导致决策树的表征能力受限。

       随机森林远比单棵决策树强大,首先样本随机且允许一定的重复,数据足够多样大大提升特征空间的分辨率,使决策边界更加平滑准确,其次特征随机,随机选取的特征子集可以在特征空间中形成更加有效的决策边界,从而大大减轻过拟合问题,随机森林的树结构十分清晰,因此简单高效,可解释性强,可以处理高维特征,随机森林应用十分广泛,金融领域用于信用风险评估,医疗领域用于疾病诊断,互联网领域用于推荐系统等。


概率图模型

        概率图模型最重要的就是用图描述清楚随机变量之间的关系,将概率引入到机器学习中,而图作为工具,有无向图(马尔科夫随机场)和有向图(贝叶斯网络),马尔可夫性有三种,成对马尔可夫性,局部马尔可夫性、全局马尔可夫性,这三者其实是等价的,条件随机场模型在NLP领域中经常用于语义识别。


深度信念网络DBN

       打开了深度学习的大门,将多个受限玻尔兹曼机(RBM)堆积在一起,用贪婪的方式进行训练,可以对训练数据进行深层表达的图形模型。


卷积神经网络CNN

       全连接神经网络的缺点:求偏导,偏导链式法则,网络层越深计算量越大,不止一个神经元会形成多个复杂嵌套关系,会带来计算灾难。

       CNN分为输入层,卷积层,池化层,输出层(全连接层+ softmax layer),至少有1个卷积层,卷积层用来提取特征(去除冗余提取精华,压缩卷积核,相当于映射函数,卷积核将结果映射到卷积层),可能有多个卷积核,多层叠加会使卷积层输出结果变胖,卷积层之间的神经元是局部连接和参数共享,减少计算量,池化层是对卷积层输出的特征图进一步特征抽样。CNN主要应用在图像上,例如图像分类、图像检测等。


循环神经网络RNN

       简单的神经网络就是输入层x即进入隐藏层神经元,再经过输出产生最后的结果y,通过调整权重win和wout就可以实现学习的效果,通常情况下,深度学习网络都是水平延伸的,例如CNN,但是没有考虑单个隐藏层在时序上的变化,RNN则更加细腻,关注隐藏层的每个神经元在时间维度上的不断进步,也就是网络结构不变,没有添加新的神经元,但是沿着时间轴recurrent建立时序上的关联(重复),看上去是级联,但实际上却沿着时序反复迭代网络结构,实现了对序列数据的学习,也就是让神经网络有了某种记忆的能力,根据不同的问题需要,隐藏层的时间关联可以是全连接的,也可以是自己对自己的。

       对于图片分类而言,往往都是独立的,前后无关的,因此用CNN就足够,但是对于语言类问题,输入的语境和语序都是十分重要的,RNN就派上用场了,在NLP领域实现了巨大的飞跃,RNN的训练和传统神经网络一样,采用误差反向传播+梯度下降来更新权重,只不过在计算隐藏层的时候要引入之前不同的时刻数据。

        由于时序上的层级关系,使得RNN在输入输出关系上有更大的灵活性,能够解决不同的问题,例如1toN的形式实现看图说话,Nto1的形式可以实现情感分析,NtoN(输入输出是等长序列)的形式可以实现生成文章等,NtoM(输入输出是不等长序列,即Encoder-Decoder模型)的形式可以实现机器翻译、对话生成等。时序上的依赖导致RNN就像人的记忆难以持久一样,不能无限延伸,因此为了解决这一问题又在RNN的基础上提出了长短期记忆网络(LSTM)。


生成对抗网络GAN

        GAN模型的结构总体看包括生成器和判别器两个网络,即生成提供原料,对抗产生动力,生成器由随机出入生成模拟样本,判别器通过比较真实样本和生成样本之间的两种损失,来迭代更新网络,不断缩小生成样本和真实样本间的差别,直到真假难辨,从而获得强大的生成模型,GAN模型有了广泛的应用,例如图像数据集自动生成、不同年龄段的照片自动生成、文字或语义转照片、自动生成3D模型等。


高分辨率遥感影像解译任务和相关实现如下图所示:

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值