（一）什么是决策树？ID3、C4.5、CART树的思想、原理和步骤？

本文链接：https://blog.csdn.net/qq_37089829/article/details/108826203

一.什么是决策树？

已知输入变量和输出变量均为连续变量的预测问题被称为回归问题，输出变量为有限个离散变量的预测问题被称为分类问题。决策树是一种分类与回归的方法，因其结构呈树状而得名。决策树是一种描述对实例进行分类的结构。

决策树的实施包括以下几个步骤：特征选择、决策树的生成和树的剪枝。

1）特征选择

实际项目中的特征变量数都会大于两个，此时对多个特征进行先后顺序不一样的决策时会有不一样的结果和准确率。所以就需要特征选择来决定当前应该选择那种特征来划分。也就是说，当下特征中对分类最有效的特征应该优先被选择。

（1）熵

在概率统计中，熵表示随机变量不确定性的度量。同时信息是用来消除不确定的东西。回到回归分类问题本身，对于用决策树分类前的数据，由于没有其类别的任何信息，所以此时数据的不确定性最大，熵也是最大的。对于决策树分类后的数据，理论上，特征信息被最有效的利用了，数据的不确定性也得到了最大程度的消除，此时数据的不确定性也是最小的，即熵是最小。而过程中每用一个特征进行一次决策，就能降低一次数据的熵。所以当下最优的特征就是使熵降低最多的特征。这就是信息增益的主要思想。

（2）信息增益

信息增益可以视作某一特征对数据集混乱程度降低的贡献程度：即当某个特征确定下来以后，数据集熵的降低得越明显，说明该特征对数据集提供了更多的信息，贡献程度越大。

（3）信息增益比

信息增益比也可以衡量某特征对数据的熵的影响大小。信息增益比可以视为信息增益的标准化，相对于信息增益的准则，信息增益比可以减弱对取值较多的特征的偏好。

2）决策树生成

（1）ID3

ID3算法的核心就是以信息增益来度量特征选择，选择信息增益最大的特征进行分裂。算法采用自顶向下的贪婪搜搜遍历可能的决策空间，步骤为：

①初始化特征集合和数据集合；

②计算数据集合信息熵和所有特征的条件熵，选择信息增益最大的特征作为当前决策节点；

③更新数据集合和特征集合（删除上一步使用的特征，并按照特征值来划分不同分支的数据集合）；

④重复2,3两步若子集值包含单一特征，则为分支叶子节点。

数据集的信息熵：

$H(D) = -\sum_{k = 1}^{K}\frac{\left |C_{k} \right |}{\left |D \right |}\log _{2}\frac{\left |C_{k} \right |}{\left |D \right |}$

其中 $C_{k}$ 表示集合K中属于第k类样本的样本子集。

针对某个特征A，对于数据集D的条件熵H(D|A)为：

$H(D|A) = \sum_{i=1}^{n}\frac{\left |D_{i} \right |}{\left |D \right |}H(D_{i}))$

$= -\sum_{i=1}^{n}\frac{\left |D_{i} \right |}{\left |D \right |}(\sum_{k=1}^{K}\frac{\left | D_{ik} \right |}{\left |D_{i} \right |}\log_{2}\frac{\left | D_{ik} \right |}{\left |D_{i} \right |} )$