西瓜书、南瓜书第4章学习笔记

最新推荐文章于 2024-08-10 21:26:27 发布

LazyPunk330

最新推荐文章于 2024-08-10 21:26:27 发布

阅读量38

点赞数

文章标签：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LazyPunk/article/details/133045337

版权

本文介绍了决策树算法的基本原理，包括信息熵、条件熵、信息增益和基尼值的概念，以及ID3、C4.5和CART决策树的选择准则和改进。C4.5通过增益率平衡属性取值数量的影响，而CART则选择基尼指数最小的属性进行划分。

摘要由CSDN通过智能技术生成

决策树

1.算法原理

从逻辑角度看是许多if、else组合。

从几何角度看是按照某种准则对于特征空间进行划分。

目的是通过划分取得“纯度”更高，即在一个划分区域内通过信息熵得出的随机变量不确定性程度更低的结果。

2.定义

自信息：

$I(X)=-\log_{b}p(x)$

当b=2时单位为bit，当b=e时单位为nat。

信息熵（自信息的期望）：

度量随机变量 $X$ 的不确定性，信息熵越大越不确定

$H(X)=E[I(X)]=-\sum _{x}p(x)\log p(x)$ (离散型)

计算信息熵时约定：若 $p(x)=0$ ，则 $p(x)\log_{b}p(x)=0$ 。当 $X$ 的某个取值的概率为1时信息熵最小（最确定），其值为0；当 $X$ 的各个取值的概率均等时信息熵最大（最不确定），其值为 $\log_{b}|X|$ ，其中 $|X|$ 表示 $X$ 可能取值的个数。

将样本类别标记 $y$ 视作随机变量，各个类别在样本集合 $D$ 中的占比 $p_{k}(k=1,2,...,|y|)$ 视作各个类别取值的概率，则样本集合 $D$ （随机变量 $y$ ）的信息熵（底数 $b$ 取2）为

$Ent(D)=-\sum_{k=1}^{|y|}p_{k}\log p_{k}$

显然 $Ent(D)=H(X)$ ，此时的信息熵所代表的“不确定性”可以转换理解为集合内样本的“纯度”

条件熵（Y的信息熵关于概率分布 $X$ 的期望）：

在已知 $X$ 后 $Y$ 的不确定性

$H(Y|X)=\sum _{x}p(x)H(Y|X=x)$

从单个属性（特征） $\alpha$ 的角度来看，假设其可能取值为{ ${{a^{1},a^{2},...,a^{V}}}$ }， $D^{v}$ 表示属性 $a$ 取值为 $a^{v}\in$ { ${{a^{1},a^{2},...,a^{V}}}$ }的样本集合， $\frac{|D^{v}|}{D}$ 表示占比，那么在已知属性 $a$ 的取值后，样本集合 $D$ 的条件熵为

$\sum_{v=1}^{V}\frac{|D^{v}|}{|D|} Ent(D^{v})$

信息增益：

在已知属性（特征） $a$ 的取值后 $y$ 的不确定性减少的量，也即纯度的提升

$Gain(D,a)=Ent(D)-\sum_{v=1}^{V}\frac{|D^{v}|}{|D|} Ent(D^{v})$

即信息熵与条件熵的差值。

基尼值：

从样本集合 $D$ 中随机抽取两个样本，其类别标记不一致的频率。

因此，基尼值越小，碰到异类的概率就越小，纯度就越高。

$Gini(D)=\sum_{k=1}^{|y|}\sum_{k'\neq k}p_{k}p_{k'}\\ =\sum_{k=1}^{|y|}p_{k}(1-p_{k})\\ =1-\sum_{k=1}^{|y|}p_{k}^{2}$

属性 $\alpha$ 的基尼指数（类比信息熵和条件熵）：

$Gini\_index(D,a)=\sum_{v=1}^{V}\frac{|D^{v}|}{|D|}Gini(D^{v})$

3.ID3决策树

ID3决策树是以信息增益为准则来选择划分属性的决策树

$a_{*}=\underset{a\in A}{\arg \max} Gain(D,a)$

每次在众多条件中选最优（信息增益最大的条件），经过循环反复迭代，即为ID3决策树最终结果。

4.C4.5决策树

C4.5决策树是在ID3决策树基础上的一种改进

因为ID3决策树基于信息增益准则所以对可能取值数目较多的属性有所偏好，这种偏好可能带来不利影响。

比如，有三名学生，编号为01，02，03，很显然按照编号进行划分时信息增益率很高。这时ID3决策树会更倾向于选择编号作为条件，但其本质原因不是取值数目过多，而是每个取值内包含的样本量太少。

为减少这种偏好的不利影响，C4.5决策树使用了“增益率”代替“信息增益”，并且对增益率定义为：

$Gain\_ratio(D,a)=\frac{Gain(D,a)}{IV(a)}$

其中

$IV(a)=-\sum_{v=1}^{V}\frac{|D^{v}|}{|D|}\log_{2}\frac{|D^{v}|}{|D|}$

称为属性 $a$ 的“固有值”， $a$ 的可能取值个数 $V$ 越大，通常其固有值 $IV(a)$ 也越大。可见 $IV(a)$ 可以平衡可能取值数目较多的属性的信息增益。

但是， $a$ 的可能取值个数 $V$ 越小，通常其固有值 $IV(a)$ 也越小，增益率 $Gain\_ratio(D,a)$ 的值就越大。导致增益率对可能取值数目较少的属性有所偏好。

因此，实际使用中C4.5决策树通常采用一种启发式的方法：不用“增益率”完全取代“信息增益”，而是先选出信息增益高于平均水平的属性，再从中选出增益率最高的。

5.CART决策树

CART决策树简单地说就是选择基尼指数最小的属性作为最优化分属性

$a_{*}=\underset{a\in A}{\arg \max}\ Gini\_index(D,a)$

CART决策树实际构造如下：

首先，对每个属性 $\alpha$ 的每个可能取值 $v$ ，将数据集 $D$ 分为 $a=v$ 和 $a\neq v$ 两部分来计算基尼指数，即

$Gini\_index(D,a)=\frac{|D^{a=v}|}{|D|}\ Gini(D^{a=v})+\frac{|D^{a\neq v}|}{|D|}\ Gini(D^{a\neq v})$

然后，选择基尼指数最小的的属性及其对应取值作为最优划分属性和最优划分点

最后，重复上述步骤，直至纯度满足停止条件。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
西瓜书、南瓜书第4章学习笔记

当b=2时单位为bit，当b=e时单位为nat。
复制链接

扫一扫

LazyPunk330 CSDN认证博客专家 CSDN认证企业博客

码龄2年

5: 原创

206万+: 周排名

219万+: 总排名

287: 访问

: 等级

50: 积分

0: 粉丝

0: 获赞

1: 评论

1: 收藏

私信

关注

热门文章

最新评论

西瓜书/南瓜书第5章学习笔记
CSDN-Ada助手: 恭喜您写了第四篇博客！看来您对《西瓜书/南瓜书》第5章有很深的理解和体会。希望您能继续保持创作的热情，分享更多有价值的内容。或许下一步可以尝试结合自己的实际经验，以及其他领域的知识，来对书中的内容进行更深入的解读和思考，会让读者收益更多。期待您的下一篇作品！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
西瓜书、南瓜书第4章学习笔记
CSDN-Ada助手: 恭喜您写了第三篇博客！标题“西瓜书、南瓜书第4章学习笔记”引人注意，让人想要立即阅读您的学习心得。持续创作是一个不断进步的过程，您已经在这个领域取得了可喜的进展。接下来，我建议您可以考虑分享一些具体的例子或者实际应用，以更好地帮助读者理解和应用书中的知识。谦虚的态度一直是学习的关键，希望您能继续保持并不断挖掘自己的潜力。加油！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
西瓜书/南瓜书第1、2章笔记总结
CSDN-Ada助手: 恭喜你开始了博客创作！标题中的《西瓜书/南瓜书》引起了我的兴趣。你的第一篇博客内容似乎是对第1、2章的笔记总结，这是个很好的起点。我希望你能够进一步展开，深入解读这两章的关键概念和观点，并结合自己的理解进行分析和思考。这样的内容会更加吸引读者，并且展示出你对于相关主题的独到见解。继续努力，期待你的下一篇文章！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。