DW机器学习入门学习记录02 - 决策树算法与集成学习基础

最新推荐文章于 2024-08-23 15:47:06 发布

CinKKKyo

最新推荐文章于 2024-08-23 15:47:06 发布

阅读量394

点赞数

分类专栏： ML入门 sklearn实战文章标签：机器学习决策树算法 python

原文链接：https://www.pkudodo.com/2018/11/30/1-5/，https://www.cnblogs.com/pinard/p/6053344.html

版权

ML入门同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

sklearn实战

3 篇文章 0 订阅

订阅专栏

决策树算法原理¹ ²

直观理解

数学角度

下图所示为信息熵的定义：
在这里插入图片描述
熵H§越大时，表示信息的不确定性越大。

当我们还没开始判断的时候，对于这个苹果的不了解程度是最高的，接下来我们对颜色进行了一次判断，对苹果开始有了初步的了解。虽然可能还不太确定它是好的还是坏的，随后我们再判断下一个特征，慢慢的慢慢的，我们走到了叶节点上，这时候我们完全确定了这个苹果的好坏。
在决策树根节点的最初，我们先假设信息熵为1，表示我们的一无所知。到叶节点时假设信息熵为0，表示非常确信。那么使用决策树决策的过程就是我们不断减少信息熵的过程，直到它降为0。那么还记得我们其中的一个愿望吗？我们多么希望能用尽可能少的判断次数就能确定苹果的好坏，放到信息熵的环境下，就是我们多希望信息熵能下降得快一点。这就涉及到决策树的构建了，我们该怎么构建才能使得这棵决策树的信息熵在判断分支中下降得最快呢？这就是信息增益。

信息增益

在这里插入图片描述
如下图所示。我们假设D和B是两个判断节点，它们在同一个分支中，D通过对样本特征A的值新型判断后进入了A分支。那么在D节点中我们的信息熵肯定是比较高的，令D节点中此时的信息熵是H(D)。然后经过D的一次判断，信息熵减少了，此时到了节点B，因为B节点的信息熵依靠于D对特征A的判断，所以节点B的信息熵设为H(D|A)。我们要让信息熵下降得最快，也就是他们之间的信息熵差值要最大，将这个信息熵差值设为g(D, A),汇总起来就是上图中的式子了。

在这里插入图片描述

在算法中我们怎么具体运用呢？上文只是用了一个分支，可是实际上在决策树中每个节点都应该有两个分支。

在这里插入图片描述

其实两分支和单分支一样的，父节点中的信息熵仍然是H(D),两个子节点各自的信息熵是H(D1|D)和H(D2|D)，将二者相加即可。如下图所示为《统计学习方法》中的解释：

在这里插入图片描述

信息增益比

我们知道信息增益是用来判断不确定性的，从而在构建决策树的过程中选择确定性最高的方式去构建。上文苹果例子中只有好苹果和坏苹果两种，我们假设这么一种场景。有6个样本，他们的标记分别属于{D1， D2， D3， D4， D5， D6}六种，远不止苹果的两种了。为了尽可能地降低不确定性，程序可能会干出下图中的这件事。它直接建立了6个分支。如果存在1000个样本要构建树，直接想法去生成个1000个分支的节点好了。有时候单个节点太多也不好，所以要使用信息增益比，通过比值去确定到底用几个分支合适，不能为了节约分支只用2个，也不能无限地扩展下去。

在这里插入图片描述

它的正式定义是这样的。在本文的程序中使用的是mnist数据集跑的二分类任务，经过实测信息增益比相对于信息增益方式来说没有性能上的提高。主要原因是在数据集特征的处理过程中我将其进行了二值化，也就是对于每个特征而言只有0和1两种分支可建立，所以即使不适用信息增益比，也不会出现图中这种情况。读者在使用中要依据实际情况来判断是否需要使用信息增益比。

在这里插入图片描述

决策树的生成

ID3

ID3算法就是用信息增益来判断当前节点应该用什么特征来构建决策树。
具体来说就是用信息增益大小来判断当前节点应该用什么特征来构建决策树，用计算出的信息增益最大的特征来建立决策树的当前节点。这里我们举一个信息增益计算的具体的例子。比如我们有15个样本D，输出为0或者1。其中有9个输出为1， 6个输出为0。样本中有个特征A，取值为A1，A2和A3。在取值为A1的样本的输出中，有3个输出为1， 2个输出为0，取值为A2的样本输出中,2个输出为1,3个输出为0，在取值为A3的样本中，4个输出为1，1个输出为0。
则样本D的熵为：
在这里插入图片描述
样本D在特征下的条件熵为：

对应的信息增益为：

在程序上来讲，首先从根节点开始，对每个特征进行遍历，假设对当前特征进行分配，计算分配后的子节点的信息熵，选择特征中信息增益最大的特征来划分数据并建立子节点。之后在子节点中递归调用该方法。算法过程如下图所示：
在这里插入图片描述

C4.5

ID3算法有四个主要的不足，一是不能处理特征值为连续值的特征，第二个就是用信息增益作为标准容易偏向于取值较多的特征，最后两个是缺失值处理的问和过拟合问题。昆兰在C4.5算法中改进了上述4个问题。

对于第一个问题，不能处理连续特征， C4.5的思路是将连续的特征离散化。比如m个样本的连续特征A有m个，从小到大排列为a1,a2,…,am，则C4.5取相邻两样本值的平均数，一共取得m-1个划分点，其中第i个划分点Ti表示为：
在这里插入图片描述
对于这m-1个点，分别计算以该点作为二元分类点时的信息增益。选择信息增益最大的点作为该连续特征的二元离散分类点。比如取到的增益最大的点为at，则小于at的值为类别1，大于at的值为类别2，这样我们就做到了连续特征的离散化。要注意的是，与离散属性不同的是，如果当前节点为连续属性，则该属性后面还可以参与子节点的产生选择过程。

对于第二个问题，信息增益作为标准容易偏向于取值较多的特征的问题。我们引入一个信息增益比的变量IR(X,Y)，它是信息增益和特征熵的比值。表达式如下：
在这里插入图片描述
其中D为样本特征输出的集合，A为样本特征，对于特征熵HA(D), 表达式如下：

其中n为特征A的类别数， Di为特征A的第i个取值对应的样本个数。|D|为样本个数。

特征数越多的特征对应的特征熵越大，它作为分母，可以校正信息增益容易偏向于取值较多的特征的问题。

对于第三个缺失值处理的问题，主要需要解决的是两个问题，一是在样本某些特征缺失的情况下选择划分的属性，二是选定了划分属性，对于在该属性上缺失特征的样本的处理。

对于第一个子问题，对于某一个有缺失特征值的特征A。C4.5的思路是将数据分成两部分，对每个样本设置一个权重（初始可以都为1），然后划分数据，一部分是有特征值A的数据D1，另一部分是没有特征A的数据D2. 然后对于没有缺失特征A的数据集D1来和对应的A特征的各个特征值一起计算加权重后的信息增益比，最后乘上一个系数，这个系数是无特征A缺失的样本加权后所占加权总样本的比例。

对于第二个子问题，可以将缺失特征的样本同时划分入所有的子节点，不过将该样本的权重按各个子节点样本的数量比例来分配。比如缺失特征A的样本a之前权重为1，特征A有3个特征值A1,A2,A3。 3个特征值对应的无缺失A特征的样本个数为2,3,4.则a同时划分入A1，A2，A3。对应权重调节为2/9,3/9, 4/9。

对于第4个问题，C4.5引入了正则化系数进行初步的剪枝。…(补充)

CART

C4.5虽然改进或者改善了ID3算法的几个主要的问题，仍然有优化的空间。

1)由于决策树算法非常容易过拟合，因此对于生成的决策树必须要进行剪枝。剪枝的算法有非常多，C4.5的剪枝方法有优化的空间。思路主要是两种，一种是预剪枝，即在生成决策树的时候就决定是否剪枝。另一个是后剪枝，即先生成决策树，再通过交叉验证来剪枝。后面在下篇讲CART树的时候我们会专门讲决策树的减枝思路，主要采用的是后剪枝加上交叉验证选择最合适的决策树。

2)C4.5生成的是多叉树，即一个父节点可以有多个节点。很多时候，在计算机中二叉树模型会比多叉树运算效率高。如果采用二叉树，可以提高效率。

3)C4.5只能用于分类，如果能将决策树用于回归的话可以扩大它的使用范围。

4)C4.5由于使用了熵模型，里面有大量的耗时的对数运算,如果是连续值还有大量的排序运算。如果能够加以模型简化可以减少运算强度但又不牺牲太多准确性的话，那就更好了。

这4个问题在CART树里面部分进行了改进。

Ensemble Learning³

在机器学习的有监督学习算法中，我们的目标是学习出一个稳定的且在各个方面表现都较好的模型，但实际情况往往不这么理想，有时我们只能得到多个有偏好的模型（弱监督模型，在某些方面表现的比较好）。集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型，集成学习潜在的思想是即便某一个弱分类器得到了错误的预测，其他的弱分类器也可以将错误纠正回来。

常见方法

Bagging

Boosting

Stacking

随机森林、XGBoost、LightGBM 和 GBDT

https://www.pkudodo.com/2018/11/30/1-5/ ↩︎
https://www.cnblogs.com/pinard/p/6053344.html ↩︎
https://zhuanlan.zhihu.com/p/27689464 ↩︎

CinKKKyo

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DW机器学习入门学习记录02 - 决策树算法与集成学习基础

目录决策树算法原理[^1] [^2]直观理解数学角度信息增益信息增益比决策树的生成ID3C4.5CARTEnsemble Learning[^3]常见方法BaggingBoostingStacking随机森林、XGBoost、LightGBM 和 GBDT决策树算法原理1 2直观理解数学角度下图所示为信息熵的定义：熵H§越大时，表示信息的不确定性越大。当我们还没开始判断的时候，对于这个苹果的不了解程度是最高的，接下来我们对颜色进行了一次判断，对苹果开始有了初步的了解。虽然可能还不太确定它是好的
复制链接

扫一扫