机器学习：决策树

最新推荐文章于 2023-04-03 17:03:19 发布

乐乐的笔记屋

最新推荐文章于 2023-04-03 17:03:19 发布

阅读量140

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Jasonluo8/article/details/119356412

版权

本文介绍了决策树的基础知识，包括其结构和基本算法。重点讨论了ID3算法，利用信息熵和信息增益来选择最优划分属性以提高决策树的纯度。同时提到了C4.5和Cart算法，它们分别基于增益率和基尼系数进行属性选择。通过对每个属性的信息增益计算，确定最佳划分属性，从而构建决策树。

摘要由CSDN通过智能技术生成

文章内容总结源于《周志华-机器学习》

决策树

通常决策树包含一个根结点（开始，包含所有样本）、多个的内部节点、多个叶子结点（最终，决策的结果）。

决策树的基本算法：

（截图来自：周志华-机器学习）

其中，属性集A表示为判定集合。例如，什么颜色？什么形状？

函数TreeGenerate中有三种情况：

1.样本集D同属于一个类别，无需划分 - 标记为叶结点

2.A属性集为空，或者D中样本在A属性判定下取值都相同，无法划分 - 标记为叶结点

3.A中选择最优划分属性a*

具有代表性的决策树有：

- ID3算法（信息增益）

- C4.5 算法（增益率）

- Cart 算法（基尼系数）

如何选择最优划分属性，以ID3为例：

信息熵：

信息增益用于衡量样本集合的纯度。信息增益越小，纯度越高，样本中相同类别的数量就越大。

信息增益(ID3)：

通过信息增益来进行决策树的划分属性选择。信息增益越大意味着使用属性a来进行划分所获得的“纯度提升”越大.

$D^{v}$ 是D的子集， $D^{v}$ 集合来自于是选定属性 $a_{n}$ 下的分支 $a_{n}^{v}$ 。

通过计算每个选定属性的信息增益，得到最合适的属性。

思路：

想要找到最优划分属性，就必须计算出每一个属性的信息增益。计算每一个属性的信息增益时，注意每个属性内是包含不同的分支的。例如，书中事例，西瓜的纹理就有三个分支（清晰、稍糊、模糊）。

乐乐的笔记屋

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。