[AI算法][机器学习]：决策树 ID3 C4.5 CART 基于Python实现

本文链接：https://blog.csdn.net/qq_41897558/article/details/105037379

决策树

文章目录

- 决策树

1 决策树的基本原理

决策树（Decision Tree）是一种分而治之的决策过程。一个困难的预测问题，通过树的分支节点，被划分成两个或多个较为简单的子集，从结构上划分为不同的子问题。将依规则分割数据集的过程不断递归下去（Recursive Partitioning）。随着树的深度不断增加，分支节点的子集越来越小，所需要提的问题数也逐渐简化。当分支节点的深度或者问题的简单程度满足一定的停止规则（Stopping Rule）时, 该分支节点会停止分裂，此为自上而下的停止阈值（Cutoff Threshold）法；有些决策树也使用自下而上的剪枝（Pruning）法。

2 决策树的三要素

一棵决策树的生成过程主要分为下3个部分：

1、特征选择： 从训练数据中众多的特征中选择一个特征作为当前节点的分裂标准，如何选择特征有着很多不同量化评估标准，从而衍生出不同的决策树算法。

2、决策树生成： 根据选择的特征评估标准，从上至下递归地生成子节点，直到数据集不可分则决策树停止生长。树结构来说，递归结构是最容易理解的方式。

3、剪枝： 决策树容易过拟合，一般来需要**剪枝或者随机森林，**缩小树结构规模、缓解过拟合。剪枝技术有预剪枝和后剪枝两种。

3 决策树学习基本算法

ID3 通过信息增益选择特征
C4.5 ：通过信息增益比选择特征
CART：通过Gini指数选择特征

4 决策树算法优缺点

决策树算法的优点：

1、决策树算法易理解，机理解释起来简单。

2、决策树算法可以用于小数据集。

3、决策树算法的时间复杂度较小 $O (l o g N)$ ，**速度快，**为用于训练决策树的数据点的对数。

4、相比于其他算法智能分析一种类型变量，决策树算法可处理数字和数据的类别。

5、能够处理多输出的问题。

6、对缺失值不敏感。

7、可以处理不相关特征数据。

8、**效率高，**决策树只需要一次构建，反复使用，每一次预测的最大计算次数不超过决策树的深度。

决策树算法的缺点：

1、对连续性的字段比较难预测。

2、容易出现过拟合。

3、当类别太多时，错误可能就会增加的比较快。

4、在处理特征关联性比较强的数据时表现得不是太好。

5、**对于各类别样本数量不一致的数据，在决策树当中，信息增益的结果偏向于那些具有更多数值的特征。**改进CART

5 熵的概念以及理解

熵：度量随机变量的不确定性。
定义：假设随机变量X的可能取值有 $x_{1},x_{2},...,x_{n}$ ，对于每一个可能的取值 $x_{i}$ ，其概率为 $P(X=x_{i})=p_{i},i=1,2...,n$ 。随机变量的熵为：
$H(X)=-\sum_{i=1}^{n}p_{i}log_{2}p_{i}$
对于样本集合，假设样本有k个类别，每个类别的概率为 $\frac{|C_{k}|}{|D|}$ ，其中 ${|C_{k}|}{|D|}$ 为类别为k的样本个数， $∣ D ∣$ 为样本总数。样本集合D的熵为：
$H(D)=-\sum_{k=1}^{k}\frac{|C_{k}|}{|D|}log_{2}\frac{|C_{k}|}{|D|}$
基尼指数（Gini）

在这里插入图片描述
备注：pk表示选中的样本属于k类别的概率，则这个样本被分错的概率为(1-pk)。
对于给定的样本集合D，其基尼指数为：

在这里插入图片描述

备注：这里ck是D中属于第k类的样本自己，K是类的个数。

如果样本集合D根据特征A是否取某一可能值a被分割成D1和D2两部分，即：在这里插入图片描述

则在特征A的条件下，集合D的基尼指数定义为：
在这里插入图片描述

基尼指数Gini(D)表示集合D的不确定性，基尼指数Gini(D,A)表示经A=a分割后集合D的不确定性。基尼指数值越大，样本集合的不确定性也就越大，这一点跟熵相似。

6 信息增益的理解

定义：以某特征划分数据集前后的熵的差值。
熵可以表示样本集合的不确定性，熵越大，样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。假设划分前样本集合D的熵为H(D)。使用某个特征A划分数据集D，计算划分后的数据子集的熵为H(D|A)。
则信息增益为：
$g (D, A) = H (D) - H (D ∣ A)$
*注：*在决策树构建的过程中我们总是希望集合往最快到达纯度更高的子集合方向发展，因此我们总是选择使得信息增益最大的特征来划分当前数据集D。
思想：计算所有特征划分数据集D，得到多个特征划分数据集D的信息增益，从这些信息增益中选择最大的，因而当前结点的划分特征便是使信息增益最大的划分所使用的特征。
另外这里提一下信息增益比相关知识：
$信息增益比=惩罚参数\times信息增益$
信息增益比本质：在信息增益的基础之上乘上一个惩罚参数。特征个数较多时，惩罚参数较小；特征个数较少时，惩罚参数较大。
惩罚参数：数据集D以特征A作为随机变量的熵的倒数。 $\frac{1}{H(D)}$ 数据集D的香农熵