机器学习—决策树1

最新推荐文章于 2024-10-13 21:11:07 发布

weixin_43484614

最新推荐文章于 2024-10-13 21:11:07 发布

阅读量914

点赞数 30

文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/weixin_43484614/article/details/104751380

版权

简介

$\bullet$ 流行的决策树算法有： ID3、C4.5和CART。
$\bullet$ 不同的决策树方法区别：选择特征/阈值( $x_{j}= t$ )进行节点分裂的准则不同。
　　１）ID3：信息增益最大（对标签y提供信息最多的特征），倾向于选择取值多的特征进行分裂。
　　２）C4.5：ID3的改进，信息增益率最大
　　３）CART：分类：GINI指数最小；回归：均方误差最小

ID3

$\bullet$ 令当前节点的样本集合为D
$\bullet$ 用样本的比例估计概率分布： $\pi_{c} = \frac{1}{|D|}\Pi(y_{i}=c)$
$\bullet$ 分裂之前的熵： $-\sum_{i=1}^{c}P(Y=c)logP(Y=c)$ 　　这里的log是以２为底
$\bullet$ 分裂成V个子集后的熵： $H_X(D) = \sum_{v=1}^{V}\frac{|D_{V}|}{|D|}H(D_V)$
$\bullet$ 信息增益： $gain_{x}(D) = H(D) - H_{X}(D)$ 可解释为“根据候选特征X对样本集合进行分裂，对标签Y提供的信息”，不是很好理解啊
$\bullet$ 可以证明：特征X分裂为Y提供的信息增益等于X、Y的互信息 $I (X, Y) = H (X) + H (Y) - H (X, Y)$

分裂之后，希望每个节点的类别是相同的。熵是对不确定性的度量，系统由不确定变得更确定，也就是熵减少，说明外界给它提供了一些信息，这个信息就是对属性x进行分裂得来的。应结合李永乐老师讲的熵的概念来理解。老师其实没有讲互信息是什么，一句就带过了。

信息增益计算及节点分裂实例

在这里插入图片描述希望信息增益最大，分裂前的熵是一样的，所以只须选取分裂后熵最小的分裂特征。
左右两个橙色节点，都只有一个分类了，可以停止分裂，称为叶子节点。如果值有多个，分裂后并不是二叉树，后边的CART是二叉树。

C4.5

$\bullet$ ID3选择信息增益最大的特征进行分裂，倾向于选择取值多的特征。像ID这样取值很多的特征，会分裂出很多子节点，但对分类没有意义。需分析为什么会倾向于选择取值多的特征。
$\bullet$ C4.5：选择信息增益率最大的特征进行分裂
$\bullet$ 分裂信息： $split\_info_x(D) = -\sum_{v=1}^{V}\frac{|D_v|}{D}log_{2}\frac{|D_v|}{|D|}$
$\bullet$ 信息增益率： $gain\_ratio_X(D) = \frac{gain_X(D)}{split\_info_X(D)}$ 相比于更少的子节点，将节点分裂成更多的子节点，熵减少会更多，信息增益会更大。所以对于ID3来说，会倾向于选择特征取值较多的特征进行分裂，而且会得到更多的子节点，模型就会变得更复杂