DW集训营算法基础梳理任务3：决策树

最新推荐文章于 2023-08-30 17:13:57 发布

精神抖擞王大鹏

最新推荐文章于 2023-08-30 17:13:57 发布

阅读量396

点赞数

分类专栏：机器学习文章标签：决策树熵基尼系数回归树过拟合

本文链接：https://blog.csdn.net/qq_29027865/article/details/86710772

版权

机器学习专栏收录该内容

19 篇文章 2 订阅

订阅专栏

【学习任务】

信息论基础（熵联合熵条件熵信息增益基尼不纯度）
决策树的不同分类算法（ID3算法、C4.5、CART分类树）的原理及应用场景
回归树原理
决策树防止过拟合手段

前言

在引出信息论基础的这些概念前，我们先来说清楚为什么会用到它们，又是在什么情况下需要用到它们的？

决策树是一个非常人性化的模型，它的建模思路是尽量模拟人做决策的过程，其完全通过生成决策规则来解决分类和回归问题。这里拿招聘爬虫的例子来简单说明：
在这里插入图片描述
可以看到，这样的一个决策的过程，最终形成了一个树的结构，在这棵树所有的叶子节点的位置，其实就是我们最终作出的决策，这个决策在这里也可以认为是对输入信息(这里指应聘者的个人情况)的一个输出(这里指的是分类)。而这棵树的每个子树的根结点，就可以被认为决策规则。
但是，这种情况是我们的语言描述，不具有问题的解释性。如果具体到数值情况的话，决策树又是怎么表示的呢？我们以鸢尾花数据集的后两个特征，使用sklearn先看下决策树得到的分类效果：
在这里插入图片描述
我们可以用树的方式来描绘该分类，如下：

由此，我们知道决策树在数值上的表现就是，在每个节点上，它选择某一个维度以及和这个维度相应的阈值，然后根据此阈值来进行决策分类。

现在我们对决策树有了初步的印象，接下来我们的问题是，我们应该在每个节点的哪个维度做划分？我们又该在某个维度下的哪个值(阈值)上做划分？由此，我们需要引出信息论基础中的概念来进行解释。

1. 信息论基础（熵联合熵条件熵信息增益基尼不纯度）

信息熵：
熵原本是一个热力学的用词，在信息论中熵代表对随机变量不确定性的度量。对一组数据来说，熵越大，数据的不确定性越高，熵越小，数据的不确定性越低。
信息熵的公式如下：
在这里插入图片描述
Pi：在这里Pi指的是，在一个系统中，可能会有k类信息，每类信息所占的比例(注意这里是比例，不是概率,因为这个训练集中类别信息是确定的)，就叫做Pi；
负号的解释：因为Pi本身都是小于1的，那么log(Pi)就是小于1的，为了抵消负号的影响，因此需要在其前面加上负号。
我们拿一个特例来解释信息熵，假如有5个类别，若干个数值，数值的分类比例可以表示为：{1,0,0,0,0}，这种情况下的信息熵就为：H=-1.log(1)=0，熵达到最小值，即其不确定性最低，确定性最高，因为它每个样本都属于第一类。
那么现在我们就可以知道，决策树中如何划分的基本方向，就是经过划分之后使得信息熵降低，即数据的确定性变高，划分出来的信息熵，是所有其他划分方法中得到的信息熵的最小值，得到的这个划分的维度及维度下的阈值，即构建了决策树。
(由信息熵来定划分的维度和值的具体过程，以及构建决策树的过程代码，预计在2月4号补充完毕)