决策树—ID3

最新推荐文章于 2022-10-22 00:15:00 发布

withme9919

最新推荐文章于 2022-10-22 00:15:00 发布

阅读量1k

点赞数

分类专栏：机器学习文章标签：决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mimi9919/article/details/51236287

版权

本文介绍了决策树的基础知识，包括其树结构特征和在分类问题中的应用。以14天气象数据为例，讨论如何利用决策树判断是否依据天气条件去打球。文中提到信息熵作为确定分类标准的依据，解释了熵的概念及其在衡量系统有序性中的作用。最后提到了C++实现ID3决策树的代码，鼓励读者进一步学习。

摘要由CSDN通过智能技术生成

决策树—ID3

基本概念
决策树（decision tree）是一个树结构（可以是二叉树或非二叉树）。每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。
问题：
14天的气象数据(指标包括outlook，temperature，humidity，windy)，并已知这些天气是否打球(play)。如果给出新一天的气象指标数据:sunny,cool,high,TRUE，判断一下会不会去打球。
计算公式(信息熵)
以什么标准来确定分支呢，比如说我们是以outlook还是以temperature来做为第一个分类的标准呢？这里用到了信息熵。熵是不确定性/无序性的度量指标，一个系统越是有序，信息熵就越低，反之一个系统越是混乱，它的信息熵就越高。所以信息熵可以被认为是系统有序化程度的一个度量。

一个随机变量X的取值为X={x1,x2,…xn}，每一个取到的概率是{p1,p2,…pn}，那么X的熵定义为：

H (X) = - \sum i = 1 n p i log 2 p i

$H\left( X \right) = - \sum\limits_{i = 1}^n {p_i \log _2 p_i }$
意思是一个变量的变化情况可能越多，那么它携带的信息量就越大。
信息增益是针对特征而言的就是由于使用这个属性分割样例而导致的期望熵降低，公式是：

G a i n (S, A) = E (S) - \sum v \in v a l u e s (A) | S v | S

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。