ML模型4：决策树

最新推荐文章于 2021-09-14 22:22:14 发布

Harry-L

最新推荐文章于 2021-09-14 22:22:14 发布

阅读量563

点赞数

分类专栏：机器学习算法梳理文章标签：决策树

本文链接：https://blog.csdn.net/l75326747/article/details/84143201

版权

本文详细介绍了决策树的常见类型，包括ID3、C4.5和CART算法。ID3算法基于信息增益，C4.5对其进行了改进，处理连续特征、信息增益问题和缺失值。CART树采用基尼指数，仅进行二分划分。决策树的主要优点包括直观、不需要预处理、处理离散和连续值的能力，但也存在过拟合等问题。

摘要由CSDN通过智能技术生成

决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。决策树是非常常用的分类方法，既可以用于分类，又可以用于回归。

选择及切分特征时，通过一种衡量标准，计算通过不同特征进行分支选择后的分类情，找出最好的作为分类节点。

1. 常见决策树

1.1 ID3

ID3算法是决策树的一种，基于奥卡姆剃刀原理，即用尽量用较少的东西做更多的事。ID3算法( Iterative Dichotomiser 3)，迭代二叉树3代，是Ross Quinlan发明的一种决策树算法，这个算法的基础就是上面提到的奥卡姆剃刀原理，越是小型的决策树越优于大的决策树，尽管如此，也不总是生成最小的树型结构，而是一个启发式算法。

在信息论中，期望信息越小，那么信息增益就越大，从而纯度就越高。ID3算法的核心思想就是以信息增益来度量属性的选择，选择分裂后信息增益最大的属性进行分裂。该算法采用自顶向下的贪婪搜索遍历可能的决策空间。

信息熵： 表示系统有序化程度的度量。一个系统越有序，信息熵越低，反之越是混乱，它的信息熵越高。

$H(X)=-\sum_{i=1}^{n} p_i \log_2(p_i)$

信息增益： 表示特征X使得类Y的不确定性减少的程度。信息增益是针对一个一个特征而言的，就是看一个特征，系统有它和没有它时的信息量各是多少，两者的差值就是这个特征给系统带来的信息量，即信息增益。

数据集D的信息熵：
$H(D)=-\sum_{k=1}^{K} \frac{|C_k|}{|D|} \log_2(\frac{|C_k|}{|D|})$
特征A对数据集D的信息增益(条件熵)：
$H(D|A)=\sum_{i=1}^{n} H(D_i)=-\sum_{i=1}^{n} \sum_{k=1}^{K} \frac{|D_{ik}|}{|D_i|} \log_2(\frac{|D_{ik}|}{|D_i|})$