决策树

最新推荐文章于 2023-04-07 09:55:08 发布

Aries_楊小欣�

最新推荐文章于 2023-04-07 09:55:08 发布

阅读量319

点赞数

原文链接：https://blog.csdn.net/Yasin0/article/details/88606698

版权

决策树

决策树是一种自上而下，对样本数据进行树形分类的算法，既可以用于分类，又可以用于回归。决策树的构建过程也对应着对特征空间的划分：从根结点开始，计算该结点所有可能特征的信息增益（比）或基尼系数，选择信息增益（比）最大或基尼系数最小的特征作为结点的特征，由该特征的不同取值对训练数据进行分割，建立子结点；再对子结点递归地调用以上方法，构建决策树；直到所有特征的信息增益（比）或基尼系数很小或没有特征可以选择为止。最后每个子集都被分到叶结点上，即都有了明确的类，这就得到一个决策树。（每个内部结点表示一个特征，叶结点表示一个类。）
决策树学习通常包括3个步骤：特征选择、决策树的生成和决策树的剪枝。

决策树学习常用的算法有ID3、C4.5与CART。

ID3

1. 信息增益

ID3算法的核心是在决策树各个结点上应用信息增益准则选择特征，递归地构建决策树。相当于用极大似然法进行概率模型的选择。

熵度量了事物的不确定性，越不确定的事物，它的熵就越大。设X是一个取有限个值的离散随机变量，其概率分布为：

其中n代表X的n种不同的离散取值，log为以2或者e为底的对数。

条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。随机变量X给定的条件下随机变量Y的条件熵H(Y|X)定义为X给定条件下Y的条件概率分布的熵对X的数学期望

信息增益表示由于得知特征A的信息而使得对数据集D的分类的不确定性减少的程度。不同的特征往往具有不同的信息增益，信息增益大的特征具有更强的分类能力。应用信息增益准则选择特征时，给定训练数据集D和特征A，经验熵H(D)表示对数据集D进行分类的不确定性。而经验条件熵H(D|A)表示在特征A给定的条件下对数据集D进行分类的不确定性。特征A对训练数据集D的信息增益g(D,A)，定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差，即：

输入：训练数据集D和特征A；
输出：特征A对训练数据集D的信息增益g(D,A)

2. ID3算法　　　　　

3. ID3算法的不足

ID3不能处理连续特征，如：长度，密度
ID3采用信息增益大的特征优先建立决策树的节点。但在相同条件下，取值比较多的特征比取值少的特征信息增益大。比如一个变量有2个值，各为1/2，另一个变量为3个值，各为1/3，其实他们都是完全不确定的变量，但是取3个值的比取2个值的信息增益大。
ID3算法没有考虑缺失值的情况
没有考虑过拟合的问题
C4.5

1. C4.5算法的改进

ID3算法有四个主要的不足，一是不能处理连续特征，第二个就是用信息增益作为标准容易偏向于取值较多的特征，最后两个是缺失值处理的问题和过拟合问题。昆兰在C4.5算法中改进了上述4个问题。

对于第一个问题，不能处理连续特征， C4.5的思路是将连续的特征离散化。

对于这n-1个点，分别计算以该点作为二元分类点时的信息增益,选择信息增益最大的点，获得相应划分点。比如取到的增益最大的点为at,则小于at的值为类别1，大于at的值为类别2，这样我们就做到了连续特征的离散化。要注意的是，与离散属性不同的是，如果当前节点为连续属性，则该属性后面还可以参与子节点的产生选择过程。

对于第二个问题，信息增益作为标准容易偏向于取值较多的特征的问题，我们引入一个信息增益比的变量。

特征A对训练数据集D的信息增益比定义为其信息增益g(D,A)与训练数据集D的经验熵H(D)之比：

特征数越多的特征对应的特征熵越大，它作为分母，可以校正信息增益容易偏向于取值较多的特征的问题。

缺失值处理需要解决的是两个问题，一是如何在属性值缺失的情况下进行划分属性选择，二是给定划分属性，若样本在该属性上的值缺失，若何对样本进行划分？

对于某一个有缺失特征值的特征A，C4.5的思路是将数据分成两部分，对每个样本设置一个权重（初始可以都为1），然后划分数据，一部分是有特征值A的数据D1，另一部分是没有特征A的数据D2. 然后对于没有缺失特征A的数据集D1来和对应的A特征的各个特征值一起计算加权重后的信息增益比，最后乘上一个系数，这个系数是无特征A缺失的样本加权后所占加权总样本的比例。
对于第二个子问题，可以将缺失特征的样本同时划分入所有的子节点，不过将该样本的权重按各个子节点样本的数量比例来分配。比如缺失特征A的样本a之前权重为1，特征A有3个特征值A1,A2,A3。 3个特征值对应的无缺失A特征的样本个数为2,3,4.则a同时划分入A1，A2，A3。对应权重调节为2/9,3/9, 4/9。
对于第4个问题，C4.5引入了正则化系数进行初步的剪枝。具体方法这里不讨论。讲CART的时候会详细讨论剪枝的思路。

除了上面的4点，C4.5和ID的思路区别不大。　

2. C4.5算法的不足

由于决策树算法非常容易过拟合，因此对于生成的决策树必须要进行剪枝。剪枝的算法有非常多，C4.5的剪枝方法有优化的空间。思路主要是两种，一种是预剪枝，即在生成决策树的时候就决定是否剪枝。另一个是后剪枝，即先生成决策树，再通过交叉验证来剪枝。
C4.5生成的是多叉树，即一个父节点可以有多个节点。很多时候，在计算机中二叉树模型会比多叉树运算效率高。如果采用二叉树，可以提高效率。
C4.5只能用于分类，如果能将决策树用于回归的话可以扩大它的使用范围。
C4.5由于使用了熵模型，里面有大量的耗时的对数运算,如果是连续值还有大量的排序运算。
CART

1. CART分类树算法的最优特征选择方法

ID3算法使用信息增益来选择特征，信息增益大的优先选择。C4.5算法采用了信息增益比来选择特征，以减少信息增益容易选择特征值多的特征的问题。但是无论是ID3还是C4.5,都是基于信息论的熵模型的，这里面会涉及大量的对数运算。能不能简化模型同时也不至于完全丢失熵模型的优点呢？有！CART分类树算法使用基尼系数来代替信息增益比，基尼系数表示数据的不确定性，基尼指数值越大，样本集合的不确定性也就越大，这一点与熵相似。

下图为二分类中基尼系数和熵之半和分类误差率的关系：

从上图可以看出，基尼系数和熵之半的曲线非常接近，仅仅在45度角附近误差稍大。因此，基尼系数可以做为熵模型的一个近似替代。

2. CART分类树算法对于连续特征和离散特征处理的改进

对于CART分类树连续值的处理问题，其思想和C4.5是相同的，都是将连续的特征离散化。唯一的区别在于在选择划分点时的度量方式不同，C4.5使用的是信息增益比，则CART分类树使用的是基尼系数。

回忆下ID3或者C4.5，如果某个特征A被选取建立决策树节点，如果它有A1,A2,A3三种类别，我们会在决策树上一下建立一个三叉的节点。这样导致决策树是多叉树。但是CART分类树使用的方法不同，他采用的是不停的二分，还是这个例子，CART分类树会考虑把A分成{A1}和{A2,A3}, {A2}和{A1,A3}, {A3}和{A1,A2}三种情况，找到基尼系数最小的组合，比如{A2}和{A1,A3},然后建立二叉树节点，一个节点是A2对应的样本，另一个节点是{A1,A3}对应的节点。同时，由于这次没有把特征A的取值完全分开，后面我们还有机会在子节点继续选择到特征A来划分A1和A3。这和ID3或者C4.5不同，在ID3或者C4.5的一棵子树中，离散特征只会参与一次节点的建立。

3. CART分类树建立算法的具体流程

算法输入是训练集D，基尼系数的阈值，样本个数阈值。
输出是决策树T。
算法从根节点开始，用训练集递归的建立CART树。
对于当前节点的数据集为D，如果样本个数小于阈值或者没有特征，则返回决策子树，当前节点停止递归。
计算样本集D的基尼系数，如果基尼系数小于阈值，则返回决策树子树，当前节点停止递归。
计算当前节点现有的各个特征的各个特征值对数据集D的基尼系数，对于离散值和连续值的处理方法和基尼系数的计算见第二节。缺失值的处理方法和上篇的C4.5算法里描述的相同。
在计算出来的各个特征的各个特征值对数据集D的基尼系数中，选择基尼系数最小的特征A和对应的特征值a。根据这个最优特征和最优特征值，把数据集划分成两部分D1和D2，同时建立当前节点的左右节点，做节点的数据集D为D1，右节点的数据集D为D2.
对左右的子节点递归的调用1-4步，生成决策树。
对于生成的决策树做预测的时候，假如测试集里的样本A落到了某个叶子节点，而节点里有多个训练样本。则对于A的类别预测采用的是这个叶子节点里概率最大的类别。

4. CART回归树建立算法

回归树，分类树的区别在于样本输出，如果样本输出是离散值，那么这是一颗分类树。如果样本输出是连续值，那么这是一颗回归树。

CART回归树和CART分类树的建立算法大部分是类似的，所以只讨论CART回归树和CART分类树的建立算法不同的地方。　　　

连续值的处理方法不同
决策树建立后做预测的方式不同。

5. CART树算法的剪枝

CACART树的剪枝算法可以概括为两步，第一步是从原始决策树生成各种剪枝效果的决策树，第二步是用交叉验证来检验剪枝后的预测能力，选择泛化预测能力最好的剪枝后的数作为最终的CART树。

CART树的交叉验证策略：可以计算出每个子树是否剪枝的阈值α，如果把所有的节点是否剪枝的值α都计算出来，然后分别针对不同的α所对应的剪枝后的最优子树做交叉验证。这样就可以选择一个最好的α，有了这个α，我们就可以用对应的最优子树作为最终结果。

决策树

决策树是一种自上而下，对样本数据进行树形分类的算法，既可以用于分类，又可以用于回归。决策树的构建过程也对应着对特征空间的划分：从根结点开始，计算该结点所有可能特征的信息增益（比）或基尼系数，选择信息增益（比）最大或基尼系数最小的特征作为结点的特征，由该特征的不同取值对训练数据进行分割，建立子结点；再对子结点递归地调用以上方法，构建决策树；直到所有特征的信息增益（比）很大或基尼系数很小或没有特征可以选择为止。最后每个子集都被分到叶结点上，即都有了明确的类，这就得到一个决策树。（每个内部结点表示一个特征，叶结点表示一个类。）
决策树学习通常包括3个步骤：特征选择、决策树的生成和决策树的剪枝。决策树相当于用极大似然法进行概率模型的选择，其损失函数为正则化的极大似然函数。

香农熵（信息熵）：

熵是随机变量不确定性的度量，越不确定的变量，熵就越大。设X是一个取有限个值的离散随机变量，其概率分布为：

其中n代表X的n种不同的离散取值，log为以2或者e为底的对数。

应用信息增益准则选择特征时，给定训练数据集D和特征A，经验熵H(D)表示对数据集D进行分类的不确定性；经验条件熵H(D|A)表示在特征A给定的条件下对数据集D进行分类的不确定性；信息增益表示由于得知特征A的信息而使得对数据集D的分类的不确定性减少的程度。不同的特征往往具有不同的信息增益，信息增益大的特征具有更强的分类能力。

信息增益：

信息增益比：

CART（分类与回归树，Classification And Regression Tree）

CART决策树的生成就是递归地构建二叉决策树的过程，特征选择时，分类树用基尼系数最小化准则，回归树用平方误差最小化准则。

CART分类树

ID3算法使用信息增益来选择特征，信息增益大的优先选择。C4.5算法采用了信息增益比来选择特征，以减少信息增益容易选择特征值多的特征的问题。但是无论是ID3还是C4.5,都是基于信息论的熵模型的，这里面会涉及大量的对数运算。CART分类树算法使用基尼系数来代替信息增益比，简化了模型，基尼系数表示数据的不确定性，基尼系数值越大，样本集合的不确定性也就越大，这一点与熵相似。

基尼系数：

下图为二分类中基尼系数和熵之半和分类误差率的关系：

基尼系数和熵之半的曲线非常接近，仅仅在45度角附近误差稍大。因此，基尼系数可以做为熵模型的一个近似替代。

CART回归树

决策树剪枝：决策树的剪枝通常有两种方法，预剪枝（Pre-Pruning）和后剪枝（Post-Pruning）。

预剪枝

预剪枝是在决策树的生成过程中提前停止树的增长。其核心思想是在树的结点进行扩展之前，先计算当前的划分是否能带来模型泛化能力的提升，如果不能，则不再继续生长子树。此时可能存在不同类别的样本同时存于结点中，按照多数投票的原则判断该结点所属类别。预剪枝对于何时停止决策树的生长有以下几种方法：

当树到达一定深度的时候，停止树的生长。
当前结点的样本数量小于某个阈值的时候，停止树的生长。
计算每次分裂对测试集的准确度提升，当小于某个阈值的时候，不再继续扩展。
优点：预剪枝具有思想直接、算法简单、效率高等特点，适合解决大规模问题。

缺点：

如何准确地估计何时停止树的生长，针对不同问题会有很大差别，需要一定经验判断。
预剪枝有欠拟合的风险，虽然当前的划分会导致测试集准确率降低，但在之后的划分中，准确率可能会有显著上升。
后剪枝

后剪枝是在已生成的过拟合决策树上进行剪枝，得到简化版的剪枝决策树。其核心思想是让算法生成一棵完全生长的决策树，然后从最底层向上计算是否剪枝，若将该结点对应的子树替换为叶结点带来决策树泛化性能提升，则将该子树替换为叶结点，该结点的类别同样按照多数投票的原则进行判断。同样地，后剪枝也可以通过在测试集上的准确率进行判断，如果剪枝过后准确率有所提升，则进行剪枝。相比于预剪枝，后剪枝基于极小化决策树整体的损失函数的思想进行剪枝，通常可以得到泛化能力更强的决策树，但时间开销会更大。

CART算法的剪枝（后剪枝）

CART的剪枝算法（代价复杂度剪枝）可以概括为两步，第一步是从原始决策树生成各种剪枝效果的决策树，第二步是用交叉验证来检验剪枝后的预测能力，选择泛化预测能力最好的剪枝后的决策树作为最终的CART树。

步骤（2）是基于k折交叉验证，将数据集分成k份，前k−1份用于生成决策树，最后一份用于选择最优的剪枝树。重复进行N次，再从这N个子树中选择最优的子树。代价复杂度剪枝使用交叉验证策略时，不需要测试数据集，精度与REP差不多，但形成的树复杂度小。而从算法复杂度角度，由于生成子树序列的时间复杂度与原始决策树的非叶结点个数呈二次关系，导致算法相比REP、PEP、MEP等线性复杂度的后剪枝方法，运行时间开销更大。

决策树算法小结：

ID3、C4.5、CART决策树模型对比：

算法   模型应用   树结构   特征选择   连续值处理   缺失值处理     剪枝
ID3   分类   多叉树   信息增益   不支持     不支持     不支持
C4.5   分类   多叉树   信息增益比   支持     支持     支持
CART   分类，回归   二叉树   基尼系数，均方差   支持     支持     支持
应用角度：ID3和C4.5只能用于分类任务，CART不仅可以用于分类，也可用于回归任务（回归树使用最小平方误差准则）
树结构角度：ID3和C4.5产生的是多叉决策树，每个结点产生多个分支，且每个特征在层级之间不会复用；CART是二叉决策树，每个结点只会产生两个分支，且每个特征可以被重复使用；很多时候，在计算机中二叉树模型会比多叉树运算效率高，采用二叉树，可以提高效率
特征选择角度：ID3是采用信息增益作为评价标准，会倾向于取值较多的特征。因为，信息增益反映的是给定条件以后不确定性减少的程度，特征取值越多就意味着确定性更高，条件熵越小，信息增益越大。C4.5引入信息增益比，特征数越多的特征对应的特征熵越大，它作为分母，可以校正信息增益容易偏向于取值较多的特征的问题，避免ID3出现过拟合的特性，提升决策树的泛化能力
连续值处理：ID3只能处理离散型变量，而C4.5和CART都可以处理连续型变量。C4.5处理连续型变量时，通过对数据排序，找到类别不同的分割线作为切分点，根据切分点把连续属性转换为布尔型，从而将连续型变量转换多个取值区间的离散型变量；CART构建时会对特征进行二值划分，因此可以很好地适用于连续性变量
缺失值处理：ID3没有考虑缺失值的情况，而C4.5和CART可以对缺失值进行不同方式的处理
剪枝：ID3不支持树的剪枝，而C4.5和CART都支持树的剪枝操作
运算效率：ID3，C4.5使用了熵模型，里面有大量耗时的对数运算,如果是连续值还有大量的排序运算
决策树算法优缺点总结：

决策树算法的优点：

既可以用于分类又可以用于回归
天生可以处理多分类问题，不需要进行特殊处理。
基本不需要预处理，不需要提前归一化和处理缺失值，既可以处理离散值也可以处理连续值
不容易受数据中异常值影响，鲁棒性好
集成学习：现在很多强大的集成学习器都是以决策树为基学习器的，如随机森林，GBDT，Adaboost
可作为有效工具来帮助其他模型挑选特征
简单直观，解释性强。（可以将决策树看成一个if-then规则的集合：由决策树的根结点到叶结点的每一条路径构建一条规则；路径上内部结点的特征对应着规则的条件，而叶结点的类对应着规则的结论。）
可以交叉验证的剪枝来选择模型，从而提高泛化能力。
对数据分布没有特别严格的要求，可以同时发现数据中线性和非线性的关系
使用决策树预测的代价是O(log2m)。 m为样本数。
决策树算法的缺点:

容易过拟合，泛化能力不强。可以通过剪枝、设置节点最少样本数量、限制决策树深度来改进。
决策树为非参数学习，对个别数据敏感，样本发生一点点的改动，就会导致树结构的剧烈改变。可通过集成学习之类的方法解决。
寻找最优的决策树是一个NP难的问题，一般是通过启发式方法，容易陷入局部最优。可以通过集成学习之类的方法来改善。
如果某些特征的样本比例过大，生成决策树容易偏向于这些特征。可以通过调节样本权重来改善。
有些比较复杂的关系，决策树很难学习，比如异或。可以换神经网络分类方法来解决。
————————————————
版权声明：本文为CSDN博主「Yasin_」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/Yasin0/article/details/88606698