遥感之机器学习树集成模型-决策树基本术语

本文介绍了在遥感领域中,决策树模型的广泛应用和重要性,特别是随机森林等集成模型。作者强调了在资源有限的情况下,机器学习中的决策树(如随机森林)是首选,并探讨了如何优化模型的超参数。文章还回顾了决策树的发展历程,重点介绍了关键术语和经典算法,如CART、C4.5和ID3。
摘要由CSDN通过智能技术生成

1 背景介绍

目前遥感领域已有逐渐被深度学习中各种的网络架构占领高地的趋势,但能跑起深度学习并能提出优秀的网络架构的还是少数,与其做个勉强的深度学习网络跑数据,最后发现效果不佳时已浪费了许多时间,有时候用机器学习也是不错的选择。

一句话,课题组有资源的,玩深度学习,资源有限的建议机器学习。所以在开展深度学习+RS专栏之前,打算介绍应用最广泛的树集成模型,算是在给机器学习算法打个结。
但是各种机器学习模型中,优先学什么模型?多隐含层神经网络?决策树?逻辑回归?还是贝叶斯等等。
目前根据论文中总结,基于树的集成模型效果最佳,也应用最为广泛,如随机森林,xgboost等。
所以在开展深度学习+RS专栏之前,打算介绍应用最广泛的树集成模型,算是在给机器学习算法打个结,其他常用的机器学习算法陆续补充完善。

但做机器学习的都用随机森林会不会太单调了?于是针对模型中的超参数选择提出了各种算法,贝叶斯优化,启发式算法优化等等,但对树集成模型的基本组合方式等内部细节研究较少,个人以为,这里面会有不少创新点,稍微改进一下基本算法,总比在算法外围缝缝补补要好的多,论文的层次也会很高。
基于此目的,在<现代决策树模型及其编程实践:从传统决策树到深度决策树>这本书的基础上,加以整理总结完善和补充,以期达到高效的学习目的,并能迅速用于实践中。

目前应用广泛的集成模型大多以决策树模型的集成组合,所以研究其决策树模型至关重要。
本文对决策树的起源,术语等方面进行整理总结。后续具体介绍各种经典的决策树模型。

2 决策树里程碑

决策树算法的里程碑:

  1. 1936年,Ronald Fisher提出了“线性判别分析”,他将其应用于一个二分类问题。1948年,C.R.Rao将其发展为应用于多分类问题。
  2. 1959年6月,William A. Belson的论文“Matching and Prediction on the Principle of Biological Classification”发表,这被认为是现代决策树算法的开端
  3. 1963年,Morgan和Sonquist首次提出回归树,提出了不纯度量(impurity)的概念,并递归地将排序数据不断分成两个子集。比如,有序变量X的分割形式为X≤c。如果X有n个不同的观测值,则进行n-1次这样的分割。如果X是一个分类变量,有m个不同的观测值,则有2m-1个X∈A形式的分割,其中A是X值的一个子集。
  4. 1966年,Hunt发表了“Experiments in induction”,确立了决策树“分而治之”的学习策略。他通过将训练记录相继划分为较纯的子集,以递归方式建立决策树。
  5. 1972年,第一个分类树出现在THAID(THeta Automatic Interaction Detection)项目中(由Messenger和Mandell领导)。THAID选择分割是为了最大化每个模式类别(即拥有最多观测值的类别)中的观测值数量之和。预测的类别是一个模式类,替代的不纯度量函数是熵和基尼系数—基尼系数最早由Light和Margolin于1971年提出。
  6. 1974年,加州大学伯克利分校的统计学教授Leo Breiman和Charles Stone以及斯坦福大学的Jerome Friedman和Richard Olshen开始开发分类与回归树(Classification & Regression Tree,CART)算法,它基于递归的数值分割准则来构建树。1977年他们发布了第一个CART版本,1983年发表了该方法的论文,即使在今天,CART也是数据分析中使用最多的方法之一,其主要升级包括截断不必要的树、隧道和选择最佳树的版本。CART已经成为决策树的世界标准,并在不断发展进步。
  7. 1986年,Ross J.Quinlan应邀在Machine Learning创刊号上发表了ID3(Iterative Dichotomiser 3)算法。
  8. 1993年,C4.5诞生,它解决了ID3的不足,ID3算法掀起了决策树研究的热潮,短短几年间众多决策树算法问世,ID4、ID5等名字迅速被其他研究者提出的算法占用。因此,Ross J.Quinlan只好将自己的ID3后续算法命名为C4.0,在此基础上进一步提出了著名的C4.5(只是对C4.0做了些小改进),以及后续的商业化版本C5.0。
    上述提到的线性判别模型目前依然用的比较多,其思想被很多算法借鉴参考,值得认真研读学习。
    "分而治之"的思想在各种算法中都有体现,值得领悟学习。
    随着CART、ID3和C4.5这些经典决策树算法的诞生,决策树在流程决策、数据分析和处理领域开始被广泛应用。
    随着机器学习和各类人工智能技术的迅速推广,决策树良好的可解释性促进了其与各类深度学习方法的融合。
    在遥感领域除了基于各种如熵等指标在决策树算法中自动划分子数据集的方式,还有基于专家知识人工经验设置的方式,通过对不同地物在不同特征上的表现通过设置不同的阈值等,层层分级最后
    构成一颗树模型,在常用的ENVI等软件中的决策树模型大多是基于此方法。

3 决策树核心术语

在决策树中有两类节点:
● 决策节点:
决策节点用于做出任何决策,并且有多个分支
● 叶子节点:
叶子节点是这些决策的输出,不包含任何进一步的分支。

之所以称为决策树(decision tree),是因为它类似于一棵树,从根节点开始,对进一步的分支进行扩展,构建了一个树状结构。
决策树根据每一个决策节点的可能取值进一步分割,如图所示,A为决策节点,由根节点分裂而来,而对决策节点A进行分割构建了B和C,它们均为叶子节点。
在这里插入图片描述

决策树的核心术语包括:
●根节点(root node):根节点是决策树的起点。它代表整个数据集,并进一步被分为两个或更多的同质集。
●叶子节点/终端节点(leaf/terminal node):叶子节点是最终的输出节点。得到叶子节点后,树就不能再被继续分割了。每个叶子节点都标有一个类或类的概率分布。
●分割(splitting):分割是根据给定的条件将决策节点/根节点划分为子节点的过程。
●分支树/子树(branch/sub tree):由决策节点/根节点分割形成的以其子节点为根节点的树。
●剪枝(pruning):剪枝是指对树进行修剪的过程,即从树上去除不需要的分支。
●父/子节点(parent/child node):父节点是直属上级节点,子节点是下级的节点。

决策树是以样例为基础的。每个样例均包含一组属性,这些属性可以是离散的分类值,也可以是连续值。需要从一组无次序、无规则的样例集中推理出决策树表示形式。可采用自顶向下的递归方式,从样例属性中选择一个属性,并进行属性值的比较,根据不同的属性值向下分支,最终形成一棵树。从根节点到叶子节点的一条路径就对应着一条合取规则(AND规则),也称为决策规则。整个决策树就对应着一组析取表达式规则(OR规则)。决策树遵循与或式(Sum of Product,SOP)表示法,也被称为析取范式。对于一个类,从树的根部到具有相同类的叶子节点的每一个分支都是值的合取(乘积),以该类为终点的不同分支形成一个析取(和)。
可将决策规则看作一个简单的if-then语句,由一个条件和一个预测组成。例如,如果今天下雨并且是四月(条件),那么明天就会下雨(预测)。可以使用单个决策规则或多个规则的组合进行预测。决策规则遵循一个一般的结构:如果条件满足,则进行某种预测。

需要指出的是:
●属性值如果是连续的,那么在建立模型之前需要对它们进行离散化处理。
●将属性作为树的根节点或分支节点的选择策略是通过使用一些统计方法来完成的。这两点是决策树构建和应用中的核心要素。

4 总结

本文简单介绍决策树在树集成模型中的主要地位,以及其核心术语和起源等,后续介绍经典决策树算法以及基于各种决策树的集成模型。

欢迎点赞,收藏,关注,支持小生,打造一个好的遥感领域知识分享专栏。
关注其他平台专栏:
专栏平台

同时欢迎私信咨询讨论学习,咨询讨论的方向不限于:地物分类/语义分割(如水体,云,建筑物,耕地,冬小麦等各种地物类型的提取),变化检测,夜光遥感数据处理,目标检测,图像处理(几何矫正,辐射矫正(大气校正),图像去噪等),遥感时空融合,定量遥感(土壤盐渍化/水质参数反演/气溶胶反演/森林参数(生物量,植被覆盖度,植被生产力等)/地表温度/地表反射率等反演)以及高光谱数据处理等领域以及深度学习,机器学习等技术算法讨论,以及相关实验指导/论文指导等多方面。

如果对具体的详细示例有兴趣,可以参考本专栏的参考书目:

<现代决策树模型及其编程实践:从传统决策树到深度决策树 黄智濒>

其电子书和其相关的源码可通过下述咨询链接获取
资源获取咨询方式

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值