决策树

最新推荐文章于 2024-03-31 13:10:34 发布

我是女孩

最新推荐文章于 2024-03-31 13:10:34 发布

阅读量591

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/u013385018/article/details/92983409

版权

机器学习专栏收录该内容

37 篇文章 7 订阅

订阅专栏

参考文献

spark 机器学习决策树原理(一)

https://www.cnblogs.com/xiguage119/archive/2019/06/13/11015677.html

归纳决策树ID3（Java实现）

https://www.cnblogs.com/zhangchaoyang/articles/2196631.html

分类回归树CART(上)

https://www.cnblogs.com/zhangchaoyang/articles/2709922.html

1.什么是决策树　　
决策树（decision tree）是一个树结构（可以是二叉树或者非二叉树）。决策树分为分类树和回归树两种，分类树对离散变量做决策树，回归树对连续变量做决策树。
　　其中每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放在一个类别。
　　使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，知道到达叶子节点，将叶子节点存放的类别作为决策结果。
决策树学习算法主要由三部分构成

1.1特征选择
　　特征选择是指从训练数据中众多的特征中选择一个特征作为当前节点的分裂标准，如何选择特征有着很多不同量化评估标准，从而衍生出不同的决策树算法。
1.2决策树生成
　　根据选择的特征评估标准，从上至下递归地生成子节点，直到数据集不可分则停止决策树停止生长。树结构来说，递归结构是最容易理解的方式。
1.3决策树的剪枝
决策树容易过拟合，一般来需要剪枝，缩小树结构规则，缓解过拟合，剪枝技术有预剪枝和后剪枝（代价复杂度剪枝）两种。

3.决策树的特征选择
我们可以使用多种方法划分数据集，但是每种方法都有各自的优缺点。于是我们这么想，如果我们能测量数据的复杂度，对比按不同特征分类后的数据复杂度，若按某一特征分类后复杂度减少的更多，那么这个特征即为最佳分类特征。
Claude Shannon 定义了熵（entropy）和信息增益(information gain)。

3.1信息熵
首先了解一下信息量：信息量是对信息的度量，就跟时间的度量是秒一样，当我们考虑一个离散的随机变量 x 的时候，当我们观察到的这个变量的一个具体值的时候，我们接收到了多少信息呢？
信息的大小跟随机事件的概率有关。越小概率的事情发生了产生的信息量越大，如中国足球队勇夺世界杯冠军，越大概率的事情发生了产生的信息量越小，如太阳从东边升起来了（肯定发生嘛，没什么信息量）。

在信息论与概率论中，熵（entropy）用于表示“随机变量不确定性的度量”

X代表样本总数据量，n代表结果分类，p(xi)代表xi的概率(就是结果其中一个分类的概率):

例子：

在15个数据中，结果分类为2个，放贷或不放贷，9个数据的结果为放贷，6个数据的结果为不放贷。所以数据集X的信息熵，熵是针对数据集来说的

3.2信息增益（information gain）
我们已经说过，如何选择特征，需要看信息增益。也就是说，信息增益是相对于特征而言的，信息增益越大，特征对最终的分类结果影响也就越大，我们就应该选择对最终分类结果影响最大的那个特征作为我们的分类特征。
在讲解信息增益定义之前，我们还需要明确一个概念，条件熵。

接下来，让我们说说信息增益。前面也提到了，信息增益是相对于特征而言的。所以，特征A对训练数据集D的信息增益g(D,A)，定义为集合D的信息熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差，即：

以贷款申请样本数据表为例进行说明。看下年龄这一列的数据，也就是特征A1，一共有三个类别，分别是：青年、中年和老年。我们只看年龄是青年的数据，年龄是青年的数据一共有5个，所以年龄是青年的数据在训练数据集出现的概率是十五分之五，也就是三分之一。同理，年龄是中年和老年的数据在训练数据集出现的概率也都是三分之一。现在我们只看年龄是青年的数据的最终得到贷款的概率为五分之二，因为在五个数据中，只有两个数据显示拿到了最终的贷款，同理，年龄是中年和老年的数据最终得到贷款的概率分别为五分之三、五分之四。所以计算年龄的信息增益，过程如下：

同理，计算其余特征的信息增益g(D,A2)、g(D,A3)和g(D,A4)。分别为：

最后，比较特征的信息增益，由于特征A3(有自己的房子)的信息增益值最大，所以选择A3作为最优特征。

3.3 信息增益率

分裂属性的选择——信息增益率
分裂属性选择的评判标准是决策树算法之间的根本区别。区别于ID3算法通过信息增益选择分裂属性，C4.5算法通过信息增益率选择分裂属性。
属性A的“分裂信息”(split information)：

è¿éåå¾çæè¿°

其中，训练数据集S通过属性A的属性值划分为m个子数据集，|Sj||Sj|表示第j个子数据集中样本数量，|S||S|表示划分之前数据集中样本总数量。
通过属性A分裂之后样本集的信息增益：

è¿éåå¾çæè¿°

信息增益的详细计算方法，可以参考博客“决策树之ID3算法及其Python实现”中信息增益的计算。
通过属性A分裂之后样本集的信息增益率：

è¿éåå¾çæè¿°

基尼指数

连续型属性的离散化处理
当属性类型为离散型，无须对数据进行离散化处理；当属性类型为连续型，则需要对数据进行离散化处理。C4.5算法针对连续属性的离散化处理，核心思想：将属性A的N个属性值按照升序排列；通过二分法将属性A的所有属性值分成两部分（共有N-1种划分方法，二分的阈值为相邻两个属性值的中间值）；计算每种划分方法对应的信息增益，选取信息增益最大的划分方法的阈值作为属性A二分的阈值。详细流程如下：
（1）将节点Node上的所有数据样本按照连续型属性A的具体取值，由小到大进行排列，得到属性A的属性值取值序列(xA1,...,xAN)(x1A,...,xNA)。
（2）在序列(xA1,...,xAN)(x1A,...,xNA)中共有N-1种二分方法，即共产生N-1个分隔阈值。对于第i种二分方法，其二分阈值θi=xAi+xAi+12θi=xiA+xi+1A2。它将该节点上的数据集划分为2个子数据集(xA1,...,xAi)(x1A,...,xiA)(xAi+1,...,xAN)(xi+1A,...,xNA)。计算此种二分结果下的信息增益。
（3）分别计算N-1种二分结果下的信息增益，选取信息增益最大的二分结果作为对属性A的划分结果，并记录此时的二分阈值。

缺失属性值的处理
训练样本集中有可能会出现一些样本缺失了一些属性值，待分类样本中也会出现这样的情况。当遇到这样的样本集时该如何处理呢？含有缺失属性的样本集会一般会导致三个问题：
（１）在构建决策树时，每一个分裂属性的选取是由训练样本集中所有属性的信息増益率来决定的。而在此阶段，如果训练样本集中有些样本缺少一部分属性，此时该如何计算该属性的信息増益率；
（２）当已经选择某属性作为分裂属性时，样本集应该根据该属性的值来进行分支，但对于那些该属性的值为未知的样本，应该将它分支到哪一棵子树上；
（３）在决策树已经构建完成后，如果待分类样本中有些属性值缺失，则该样本的分类过程如何进行。
针对上述因缺失属性值引起的三个问题，C4.5算法有多种解决方案。
面对问题一，在计算各属性的信息増益率时，若某些样本的属性值未知，那么可以这样处理：计算某属性的信息増益率时忽略掉缺失了此属性的样本；或者通过此属性的样本中出现频率最高的属性值，賦值给缺失了此属性的样本。
面对问题二，假设属性Ａ已被选择作为决策树中的一个分支节点，在对样本集进行分支的时候，对于那些属性Ａ的值未知的样本，可以送样处理：不处理那些属性Ａ未知的样本，即简单的忽略它们；或者根据属性Ａ的其他样本的取值，来对未知样本进行赋值；或者为缺失属性Ａ的样本单独创建一个分支，不过这种方式得到的决策树模型结点数显然要増加，使模型更加复杂了。
面对问题三，根据己经生成的决策树模型，对一个待分类的样本进行分类时，若此样本的属性Ａ的值未知，可以这样处理：待分类样本在到达属性Ａ的分支结点时即可结束分类过程，此样本所属类别为属性Ａ的子树中概率最大的类别；或者把待分类样本的属性Ａ赋予一个最常见的值，然后继续分类过程。

ID3算法(归纳分类,取信息增益最大的特征为分裂特征)

构造树的基本想法是随着树深度的增加，节点的熵迅速地降低。熵降低的速度越快越好，这样我们有望得到一棵高度最矮的决策树。

ID3算法需要解决的问题是如何选择特征作为划分数据集的标准

选择信息增益最大的属性作为当前的特征对数据集分类

终止条件：

1：无特征属性可分

2：划分出来的类属于同一个类

C4.5算法（信息增益率最大的属性即为当前节点的分裂属性，随着递归计算，被计算的属性的信息增益率会变得越来越小）

决策树之C4.5算法详解

https://blog.csdn.net/zhihua_oba/article/details/70632622

C4.5算法是用于生成决策树的一种经典算法，是ID3算法的一种延伸和优化。C4.5算法对ID3算法主要做了一下几点改进：
（1）通过信息增益率选择分裂属性，克服了ID3算法中通过信息增益倾向于选择拥有多个属性值的属性作为分裂属性的不足；
（2）能够处理离散型和连续型的属性类型，即将连续型的属性进行离散化处理；
（3）构造决策树之后进行剪枝操作；
（4）能够处理具有缺失属性值的训练数据。

CART算法（Classification And Regression Tree，基尼指数）

分类回归树是一棵二叉树，且每个非叶子节点都有两个孩子，所以对于第一棵子树其叶子节点数比非叶子节点数多1。

分类的例子，全是离散数值

表1

名称	体温	表面覆盖	胎生	产蛋	能飞	水生	有腿	冬眠	类标记
人	恒温	毛发	是	否	否	否	是	否	哺乳类
巨蟒	冷血	鳞片	否	是	否	否	否	是	爬行类
鲑鱼	冷血	鳞片	否	是	否	是	否	否	鱼类
鲸	恒温	毛发	是	否	否	是	否	否	哺乳类
蛙	冷血	无	否	是	否	有时	是	是	两栖类
巨蜥	冷血	鳞片	否	是	否	否	是	否	爬行类
鸽子	恒温	毛发	否	是	是	否	是	否	鸟类
蝙蝠	恒温	毛发	是	否	是	否	是	否	哺乳类
猫	恒温	皮	是	否	否	否	是	否	哺乳类
豹纹鲨	冷血	鳞片	是	否	否	是	否	否	鱼类
海龟	冷血	鳞片	否	是	否	有时	是	否	爬行类
豪猪	恒温	刚毛	是	否	否	否	是	是	哺乳类
猫头鹰	恒温	毛发	否	是	是	否	是	否	鸟类
鳗	冷血	鳞片	否	是	否	是	否	否	鱼类
蝾螈	冷血	无	否	是	否	有时	是	是	两栖类

上例是属性有8个，每个属性又有多少离散的值可取。在决策树的每一个节点上我们可以按任一个属性的任一个值进行划分。比如最开始我们按：

1）表面覆盖为毛发和非毛发

2）表面覆盖为鳞片和非鳞片

3）体温为恒温和非恒温

等等产生当前节点的左右两个孩子。按哪种划分最好呢？有3个标准可以用来衡量划分的好坏：GINI指数、双化指数、有序双化指数。下面我们只讲GINI指数。

GINI指数

总体内包含的类别越杂乱，GINI指数就越大（跟熵的概念很相似）。比如体温为恒温时包含哺乳类5个、鸟类2个，则：

GINI=1−[(57)2+(27)2]=2049GINI=1−[(57)2+(27)2]=2049

体温为非恒温时包含爬行类3个、鱼类3个、两栖类2个,则

GINI=1−[(38)2+(38)2+(28)2]=4264GINI=1−[(38)2+(38)2+(28)2]=4264

所以如果按照“体温为恒温和非恒温”进行划分的话，我们得到GINI的增益（类比信息增益）：

GINI_Gain=715∗2049+815∗4264GINI_Gain=715∗2049+815∗4264

最好的划分就是使得GINI_Gain最小的划分。

剪枝

当分类回归树划分得太细时，会对噪声数据产生过拟合作用。因此我们要通过剪枝来解决。剪枝又分为前剪枝和后剪枝：前剪枝是指在构造树的过程中就知道哪些节点可以剪掉，于是干脆不对这些节点进行分裂，在N皇后问题和背包问题中用的都是前剪枝，上面的χ2方法也可以认为是一种前剪枝；后剪枝是指构造出完整的决策树之后再来考查哪些子树可以剪掉。

在分类回归树中可以使用的后剪枝方法有多种，比如：代价复杂性剪枝、最小误差剪枝、悲观误差剪枝等等。这里我们只介绍代价复杂性剪枝法。

对于分类回归树中的每一个非叶子节点计算它的表面误差率增益值α。

α=R(t)−R(Tt)|NTt|−1α=R(t)−R(Tt)|NTt|−1

|NTt||NTt|是子树中包含的叶子节点个数;

R(t)R(t)是节点t的误差代价，如果该节点被剪枝;

R(t)=r(t)∗p(t)R(t)=r(t)∗p(t)

r(t)是节点t的误差率;

p(t)是节点t上的数据占所有数据的比例。

R(Tt)R(Tt)是子树Tt的误差代价，如果该节点不被剪枝。它等于子树Tt上所有叶子节点的误差代价之和。

比如有个非叶子节点t4如图所示：

已知所有的数据总共有60条，则节点t4的节点误差代价为：

R(t)=r(t)∗p(t)=716∗1660=760R(t)=r(t)∗p(t)=716∗1660=760

子树误差代价为：

R(Tt)=∑R(i)=(25∗560)+(02∗260)+(39∗960)=560R(Tt)=∑R(i)=(25∗560)+(02∗260)+(39∗960)=560

以t4为根节点的子树上叶子节点有3个，最终：

α=7/60−5/603−1=16α=7/60−5/603−1=16

找到α值最小的非叶子节点，令其左右孩子为NULL。当多个非叶子节点的α值同时达到最小时，取|NTt||NTt|最大的进行剪枝。

2. 回归例子（回归树，最优切分特征和切分点）

Regression Tree 回归树

https://blog.csdn.net/weixin_40604987/article/details/79296427

假如我们有n个特征，每个特征有si(i∈(1,n))si(i∈(1,n))个取值，那我们遍历所有特征，尝试该特征所有取值，对空间进行划分，直到取到特征j的取值s，使得损失函数最小，这样就得到了一个划分点。描述该过程的公式如下：

假设将输入空间划分为M个单元：R1,R2,...,RmR1,R2,...,Rm 那么每个区域的输出值就是：cm=ave(yi|xi∈Rm)cm=ave(yi|xi∈Rm)也就是该区域内所有点y值的平均数。

CARTç®æ³æè¿°

实际上，回归树总体流程类似于分类树，分枝时穷举每一个特征的每一个阈值，来寻找最优切分特征j和最优切分点s，衡量的方法是平方误差最小化。分枝直到达到预设的终止条件(如叶子个数上限)就停止。

当然，处理具体问题时，单一的回归树肯定是不够用的。可以利用集成学习中的boosting框架，对回归树进行改良升级，得到的新模型就是提升树（Boosting Decision Tree），在进一步，可以得到梯度提升树（Gradient Boosting Decision Tree，GBDT），再进一步可以升级到XGBoost。

为了便于理解，下面举一个简单实例。训练数据见下表，目标是得到一棵最小二乘回归树。

网址

https://blog.csdn.net/weixin_40604987/article/details/79296427

我是女孩

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树

参考文献spark 机器学习决策树原理(一)https://www.cnblogs.com/xiguage119/archive/2019/06/13/11015677.html归纳决策树ID3（Java实现）https://www.cnblogs.com/zhangchaoyang/articles/2196631.html分类回归树CART(上)https://ww...
复制链接

扫一扫