决策树划分选择算法

helluy

已于 2022-02-09 14:16:01 修改

阅读量816

点赞数 4

文章标签：机器学习数据挖掘

于 2021-06-23 21:12:34 首次发布

本文链接：https://blog.csdn.net/helluy/article/details/118070933

版权

决策树划分算法

ID3决策树学习算法
- 信息熵
- 信息增益
C4.5决策树学习算法
CART决策树学习算法

决策树是一种很常见的分类学习算法，大致基本算法流程如下(截自周志华老师《机器学习》)：
决策树基本算法

依据结点（即数据属性）划分数据集，一般而言，随着划分过程的不断进行，我们希望决策树的分支节点所包含的样本尽可能属于同一个类别，即结点的“纯度”决策树的分类效果才有效果，否则如果在该分支节点下每个分支样本类别包含样本混杂，说明在该结点没有较好的划分数据的作用，因此如何选择最优划分属性成为决策树中最重要的步骤之一，以下有3种方式，但思想共通。

ID3决策树学习算法

ID3决策树学习算法就是以信息增益准则来选择划分属性。

信息熵

“信息熵”是度量样本集合纯度最常用的一种指标，也可以理解为样本类别不确定性的度量，下面为熵的定义：
$-\displaystyle\sum_{k=1}^{|y|} p_klog_2{p_k}$
其中 $p_k$ 表示样本集合 $D$ 中第 $k$ 类样本所占的比例 $(k = 1, 2, . . ., ∣ y ∣)$ ，规定：若 $p = 0$ ，则 $plog_2{p}=0$ 。
当样本集合 $D$ 中只有一类样本时，该样本集合纯度最高， $E n t (D)$ 的值为0；当样本集合 $D$ 中同时含有多个样本时，样本集合混乱, $E n t (D)$ 就会变大。所以一般来说 $E n t (D)$ 越小，说明该样本集合纯度越高；反之亦然。

信息增益

现在对样本集合 $D$ 进行划分，假定第一次划分根据的属性为样本属性 $a$ ，样本属性 $a$ 有 $V$ 个可能的取值 { $a^1，a^2，...，a^V$ }，就会产生 $V$ 个分支，其中第 $m (0 < m < V)$ 个分支包含样本中所有在属性 $a$ 上取值为 $a^m$ 的样本，这些样本重新组成集合 $D^m$ 。根据熵公式计算出 $D^m$ 的信息熵，考虑到 $D^m$ 所包含的样本数与 $D$ 不同，为 $D^m$ 的信息熵赋予权重 $\frac{|D^m|}{|D|}$ (表示 $D^m$ 所含样本数与 $D$ 所含样本数之比)，此时 $D^m$ 调整后的信息熵为 $\frac{|D^m|}{|D|}Ent(D^m)$ ，属性 $a$ 取值为 $a^m$ 的样本数越多，其影响越大。由于属性 $a$ 有 $V$ 个取值，所以由 $a$ 属性划分下的信息熵为：
$Ent(D_a)= -\displaystyle\sum_{m=1}^{V}\displaystyle\sum_{k=1}^{|y|}\frac{|D^m|}{|D|} p_klog_2{p_k}=\displaystyle\sum_{m=1}^{V}\frac{|D^m|}{|D|}Ent(D^m)$
“信息增益”可以理解为在进行一次划分后原样本集合纯度所提高量的衡量指标，在进行第一次划分后的“信息增益”为：
$a)=Ent(D)-Ent(D_a)=Ent(D)-\displaystyle\sum_{m=1}^{V}\frac{|D^m|}{|D|}Ent(D^m)$
一般来说，信息增益越大，样本划分后提升的纯度越大，因此我们可以使用信息增益来选择划分属性，即选择属性 $a$ 使 $Gain(D_a)$ 最大。

C4.5决策树学习算法

由于ID3信息增益算法不能解决由属性取值多少带来的影响，如有一样本集合，每个样本有其独有的一个编号，现在划分属性选择样本编号，就会导致划分后样本的熵值为0，此时能得到最大限度的信息增益。但显然不能讲样本序号最为划分属性，由此训练出来的模型不具备泛化能力。
考虑到这一问题，产生了C4.5决策树算法，可以说是ID3算法的一个拓展，C4.5不直接使用信息增益，而是使用“增益率”来选择最优划分属性，增益率定义为：
$Gain\displaystyle \_ratio=\displaystyle \frac{Gain(D,a)}{IV(a)}$
其中 $IV(a)=-\displaystyle \sum_{m=1}^{V}\frac{|D^m|}{|D|}log_2\frac{|D^m|}{|D|}$
当这样定义之后，再次回到属性取值数量问题，如果还是以样本序号作为划分属性，此时 $I V$ 值将会迅速变大，从而拉低 $Gain\displaystyle \_ratio$ ，使属性取值过多的属性不能作为划分属性。
一般来说，信息增益率越大，对应属性越可能作为划分属性，解决问题！

CART决策树学习算法

CART决策树使用“基尼指数”来选择划分属性，样本集合的纯度用基尼值来度量：

$Gini(D)=\displaystyle \sum_{k=1}^{|y|}\displaystyle \sum_{k'\neq k}p_kp_{k'}=\displaystyle \sum_{k=1}^{|y|}p_k(1-p_k)=1-\displaystyle \sum_{k=1}^{|y|}p_k^2$
$\displaystyle \sum_{k'\neq k}p_kp_{k'}$ 可以理解成在有放回的抽样中，依次抽两个样本，一样本类别为 $k$ ，一样本类别不为 $k$ 的概率，那么 $\displaystyle \sum_{k=1}^{|y|}\displaystyle \sum_{k'\neq k}p_kp_{k'}$ 就可以理解成有放回的抽取两个样本，其类别不一致的概率，这就是 $G i n i$ 指数的直观理解。因此，一般来说， $G i n i$ 指数越小，抽到类别不一致样本的概率就小，样本集合纯度越高。
假定选择属性 $a$ 作为划分节点，则定义划分后样本集合的 $G i n i$ 指数为：
$Gini\_index(D,a)=\displaystyle\sum_{v=1}^{V}\frac{|D^v|}{|D|}Gini(D^v)$
与ID3算法类似， $\frac{|D^v|}{|D|}$ 是 $a$ 属性下取值为 $v$ 的样本集合的 $G i n i$ 指数的权重。因此，我们的目标就变成寻找使划分后 $G i n i$ 指数最小的属性作为最优划分属性。

《机器学习》读书笔记 2021/6/23

helluy

关注

4
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
决策树划分选择算法

依据结点（即数据属性）划分数据集，一般而言，随着划分过程的不断进行，我们希望决策树的分支节点所包含的样本尽可能属于同一个类别，即结点的“纯度”决策树的分类效果才有效果，否则如果在该分支节点下每个分支样本类别包含样本混杂，说明在该结点没有较好的划分数据的作用，因此如何选择最优划分属性成为决策树中最重要的步骤之一，以下有3种方式，但思想共通。# ID3决策树学习算法ID3决策树学习算法就是以信息增益准则来选择划分属性。## 信息熵“信息熵”是度量样本集合纯度最常用的一种指标，也可以理解为样本类别不确定性
复制链接

扫一扫