经典决策树算法：ID3、C4.5和CART

最新推荐文章于 2024-07-02 11:41:12 发布

Prophet_Yu

最新推荐文章于 2024-07-02 11:41:12 发布

阅读量2.6k

点赞数

分类专栏：机器学习文章标签：机器学习决策树

本文链接：https://blog.csdn.net/weixin_38345294/article/details/70423579

版权

本文详细介绍了三种经典的决策树算法：ID3、C4.5和CART。ID3使用信息增益选择特征，C4.5通过信息增益比克服ID3的偏向性，而CART则采用二叉树结构，适用于连续和离散属性。C4.5和CART对缺失值有较好的处理策略，同时CART还涉及了剪枝方法来防止过拟合。

摘要由CSDN通过智能技术生成

ID3
C45
CART
对比总结

ID3：

ID3(Iterative Dichotomiser 3) 是一种基本的决策树算法。它可用于对只含离散属性的样本集的分类任务。ID3每次根据信息增益选择最佳划分属性，基于样本该属性值的不同，把样本划分到不同的子结点。任意两个叶结点包含的样本不重叠，所有叶结点包含的样本构成完整训练样本集。

算法步骤：
1.计算属性集中每个属性对应的信息增益。选择最大信息增益对应的属性为当前结点的分割属性。
2.根据训练样本在分割属性上属性值的不同，把训练样本划分到不同的分支结点中。并从属性集中去掉当前分割属性。
3.判断每个分支结点是否满足终止条件，对每个不满足终止条件的分支结点重复步骤1和2。

终止条件：

分支结点中所有训练样本都属于同一类
当前属性集为空，或所有训练样本在所有属性上取值相同，则将该结点类别设定为样本最多的类别
分支结点为空，则将其类别设定为父节点样本最多的类别

熵、信息增益和信息增益比：
1.熵：
熵表示随机变量的不确定性。熵越大，则随机变量的不确定性越大。对于离散变量，变量的取值可能越多，每个取值的概率越接近，则熵越大。
设

P (X = x i) = p i, i = 1, 2, . . ., n .

$P(X=x_i)=p_i,\quad i=1,2,...,n.$
则熵

H (X) = \sum i = 1 n p i \cdot l o g 1 p i = - \sum i = 1 n p i \cdot l o g p i

$H(X)=\sum_{i=1}^np_i\cdot log\frac{1}{p_i}=-\sum_{i=1}^np_i\cdot logp_i$
条件熵

H (Y | X) = \sum i = 1 n p i H (Y | X = x i)

$H(Y|X)=\sum_{i=1}^np_iH(Y|X=x_i)$

2.信息增益与信息增益比
(1).符号：
$D=\{(x_n,y_n)|n=1,2,...,N\}$ ：训练样本集
$\{Y_i|i=1,...,S\}$ :所有样本y值的集合
$\{A_j|j=1,...,K\}$ :所有样本属性A取值的集合
$D_{i\cdot}$ :所有y值等于 $Y_i$ 的训练集
$D_{\cdot j}$ :所有属性A值为 $A_j$ 的训练集
$D_{ij}$ :所有y值为 $Y_i$ 且属性A值为 $A_j$ 的训练集合
$|D|$ :样本集D中包含的样本个数