南瓜书第四章决策树

最新推荐文章于 2024-07-25 23:00:07 发布

Han___123

最新推荐文章于 2024-07-25 23:00:07 发布

阅读量475

点赞数 9

分类专栏：机器学习文章标签：决策树算法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Han___123/article/details/135905288

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

一、决策树的基本流程

1、基本概念

决策树(decision tree)是一类常见的机器学习方法。顾名思义,决策树是基于树结构来进行决策的。一般的，一棵决策树包含一个根结点、若干个内部结点和若干个叶结点。

亦称“判定树”。根据上下文，本书中的“决策树”有时是指学习方法有时是指学得的树。

例如,我们要对“这是好瓜吗?”这样的问题进行决策时，通常会进行一系列的判断或“子决策”：我们先看“它是什么颜色?”，如果是“青绿色”，则我们再看“它的根蒂是什么形态?”，如果是“蜷缩”，我们再判断“它敲起来是什么声音?”，最后，我们得出最终决策：这是个好瓜.这个决策过程如图4.1所示：

显然,决策过程的最终结论对应了我们所希望的判定结果，每个测试的结果或是导出最终结论,或是导出进一步的判定问题，其考虑范围是在上次决策结果的限定范围之内，例如若在“色泽=青绿”之后再判断“根蒂=?”，则仅在考虑青绿色瓜的根蒂。

决策树学习的目的是为了产生一棵泛化能力强，即处理未见示例能力强的决策树，其基本流程遵循简单且直观的“分而治之”(divide-and-conquer)策略。

2、算法原理

从逻辑角度，一堆if else语句的组合构成；

从几何角度，根据某种准则划分特征空间；

最终目的:将样本越分越“纯” （泛化信息熵，用信息熵度量样本纯度）。

3、信息熵

在对数几率回归部分已讲（http://t.csdnimg.cn/WQufA），在此将几个概念罗列一下：

信息熵越大，随机变量越不确定。

应用：现常用在集成学习中，用作森林（多棵树构成的森林模型）

二、划分选择

那如何用信息熵来度量纯度呢？？？

1、用信息熵来度量纯度

将样本类别标记y视作随机变量，各个类别在样本集合D中的占比pk(k=1,2,…,|y|)视作各个类别取值的概率，则样本集合D(随机变量y)的信息熵(底数b取2)为

此时的信息熵所代表的“不确定性”可以转换理解为集合内样本的“纯度”。信息熵越小，纯度越纯。

2、条件熵

可理解为根据x的取值划分子集，然后对不同的子集，分别算y的信息熵和此种情况下y占总体的比例，并计算两者乘积。

3、ID3决策树

信息增益：

通俗来说：信息增益=信息熵-条件熵

ID3决策树是以信息增益为准则来选择划分属性的决策树

选取样本中信息增益最大的属性作为我们的最优划分属性。

4、C4.5决策树

基于ID3决策树，对其进行改进。（例如“编号”这个较为极端的例子，不过其本质原因不是取值数目过多，而是每个取值里面所包含的样本量太少）

信息增益准则对可能取值数目较多的属性有所偏好，为减少这种偏好可能带来的不利影响，C4.5决策树选择使用“增益率”代替“信息增益”，增益率定义为：

其中

称为属性a的“固有值”，a的可能取值个数V越大，通常其固有值IV(a)也越大。但是增益率对可能取值数目较少的属性有所偏好。

因此，C4.5决策树并未完全使用“增益率”代替“信息增益”，而是采用一种启发式的方法先选出信息增益高于平均水平的属性，然后再从中选择增益率最高的。

5、CART决策树

(1)基尼值（也可度量一个集合的纯度）

（2）CART决策树

具体划分点的选取：

关注

9
点赞
踩
17

收藏

觉得还不错? 一键收藏
1
评论
南瓜书第四章决策树

顾名思义,决策树是基于树结构来进行决策的。一般的，一棵决策树包含一个根结点、若干个内部结点和若干个叶结点。例如,我们要对“这是好瓜吗?”这样的问题进行决策时，通常会进行一系列的判断或“子决策”：我们先看“它是什么颜色?”，如果是“青绿色”，则我们再看“它的根蒂是什么形态?”，如果是“蜷缩”，我们再判断“它敲起来是什么声音?
复制链接

扫一扫

专栏目录

Han___123 CSDN认证博客专家 CSDN认证企业博客

码龄1年

6: 原创

135万+: 周排名

19万+: 总排名

3396: 访问

: 等级

138: 积分

49: 粉丝

78: 获赞

2: 评论

68: 收藏

私信

关注

热门文章

分类专栏

机器学习 6篇

最新评论

南瓜书第四章决策树
CSDN-Ada助手: 恭喜你写了第六篇博客！看来你对南瓜书第四章决策树有着深入的理解。希望你能继续保持写作的热情，分享更多有价值的内容。或许下一步可以考虑写一些案例分析或者实际应用方面的内容，让读者更好地理解和运用所学知识。期待你的下一篇作品！
南瓜书第三章（3）线性判别分析
CSDN-Ada助手: 恭喜您写了第5篇博客，标题“南瓜书第三章（3）线性判别分析”。您的持续创作让我们对您的学识和热情深感钦佩。对于下一步的创作建议，我想提议您可以考虑增加一些实际案例或者个人体会，让读者更容易理解和接受您的知识分享。希望您能继续保持创作的热情，期待您更多的精彩分享。
南瓜书第三章（2）对数几率回归
CSDN-Ada助手: 恭喜作者继续创作，南瓜书系列博客内容丰富，对数几率回归的讲解也非常详细。建议下一步可以考虑加入一些实际案例或者应用场景，让读者更直观地理解模型的应用。期待您的下一篇作品！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
南瓜书第一章绪论
CSDN-Ada助手: 恭喜你开始了博客创作！南瓜书第一章的绪论很有深度，引人入胜。希望你能继续坚持下去，不断挖掘南瓜书的内涵，让读者能够更深入地了解其中的奥秘。或许可以在下一篇博客中深入探讨南瓜书的主题，或者分享一些与南瓜书相关的趣闻，让读者更加期待你的创作。加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。