决策树算法详解（一）_决策树算法的基本思路？-CSDN博客

本文链接：https://blog.csdn.net/qq_36736182/article/details/107887204

定义

分类决策树是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型：内部结点和叶结点。内部结点表示分类的一个特征或者属性，叶结点表示实例属于某一个类。内部结点将特征划分为互不相交的部分。

算法思想

决策树的本质是从训练数据集中归纳出一组分类规则。即从数据集中对特征进行选择，然后按照这些特征的值，将数据集划分为互不相交的部分。

信息增益

在信息论和概率统计中，熵是表示随机变量不确定性的度量。设X是一个取有限个值的离散随机变量，其概率分布是：
在这里插入图片描述
则随机变量X的熵则为下式：

或许你听过这样一个概念，如果一件事百分之百，或者百分之零发生，那么我们就可以进行判断，这是最有利我们进行判断的。但是一般情况下，我们不会得到绝对或者绝对非的概率。这时候，我们能想到的就是：向不确定性减少的最多的方向进行选择。这就好比：如果条件A使你成功的概率提高40%和条件B使你成功的概率提高20%。那么我们必然会选择条件A。所谓的信息增益就是选定一个特征之后，分类的不确定性减少的程度（也就是判断成功的提高程度）。
在这里插入图片描述其中：

式子1：信息增益的概念。在选择特征A的条件下，标签D的信息的增量。式子的第一项表示：在未选择特征的条件下，整个数据集中标签D的信息熵。式子的第二项表示：在特征A选择之后，整个数据集中标签D的信息熵
式子2：在条件A发生的情况下，D的信息熵计算公式。特征A将数据集划分了几个部分，每部分分开进行计算信息熵，然后进行求和。
式子3：信息熵的定义

特征选择

正如我们在信息增益的时候说过：选择信息增益最大的特征进行数据的划分。

信息增益比

在使用信息增益最大值作为特征选择的原则时，数据集划分偏向于选择特征取值较多的特征。就好比：特征A有好、坏两个取值，特征B有好、中、坏三个取值。这时候：在特征选择时会偏向特征B。所以，为了避免这种问题：提出了信息增益比。信息增益比：就是在选择一个特征之后，信息增益的值与选择特征后，信息熵的值的比值。公式如下：
在这里插入图片描述

算法描述

ID3

输入：训练数据集D，特征集A，阈值ε
输出：决策数T
步骤：

若D中所有实例属于同一个类，即数据集中的数据标签相同。则T为单节点树，并将该类作为该结点的类标记。返回T
若特征集为空，即没有特征集。则T为单结点树。并将数据集中类标记数量最大的类作为该节点的类
步骤1、2的条件不满足时，进行后续步骤的操作
计算特征集A中各特征对D的增益，选择信息增益最大的特征进行数据的划分；
如果选择的特征，其信息增益小于ε，则将T设为单结点树，并将D中最大的类标记数量最多的类作为该结点的类标记。返回T
否则：对选择的特征的每一个取值，将数据进行划分。将划分后的数据集中实例数最大的类作为类标记，构建子结点。由结点和子结点构成数T，返回T
对划分后的子结点进一步进行划分。循环步骤1到步骤6

C4.5

步骤和ID3一模一样，只是在特征选择时，采用的是信息增益比，而不是信息增益。

注：选择特征之后，在之后的子树中就没有用了

剪枝

按照以上的ID3或者ID4.5的步骤对数据进行划分，那么其对训练数据的划分将会很好，但是这样训练出来的决策树，其泛化能力就会变差。也就是我们所说的过拟合。所以，出于这方面的考虑，在上面生成决策数的决策数的基础上进行剪枝。即对模型进行简化。
在前面，我们知道，当数据的经验熵（就是前面所说的信息熵，其通过数据估计得到时，就叫信息熵）越小，我们就越能确定这件事会发生。所以，一棵决策数越好，其每个叶子结点上的经验熵之和越小：
在这里插入图片描述其中：
Nt：表示第t个结点上的数据量
Ntk：表示第t个结点上标签为k的数据量
式子1：计算的是整棵决策数的经验熵。（可能有人会说：加个分子：数据量的总数。但是这个值是常数，所以加不加都没有什么大关系）
式子2：计算单个叶子节点上的经验熵

现在:我们有了指标来衡量训练出来的模型。但是就如之前所说的，为了防止过拟合，需要衡量模型的复杂度。在这里，我们使用叶子结点的个数来衡量模型的复杂度。因此，得到以下衡量函数：
在这里插入图片描述其中：
α：系数，用来调整两部分比例
上式：当模型拟合训练集越好，其叶子结点就越多，那么式子的值就会变大；如果叶子结点越少，拟合的越差，式子的值也会变大。所以，两部分相互牵制。当α过大时，容易欠拟合，因为叶子结点数占主导地位了。当α过小了，容易过拟合，因为经验熵占主导地位了。