数据挖掘算法——ID3（决策树）

最新推荐文章于 2024-08-06 14:21:55 发布

yijichangkong

最新推荐文章于 2024-08-06 14:21:55 发布

阅读量6.5k

点赞数 4

分类专栏：数据挖掘算法文章标签：数据挖掘算法 ID3 决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yijichangkong/article/details/47260847

版权

本文介绍了ID3决策树算法，包括决策树的基本概念、信息熵、信息增益等核心概念，并通过实例展示了ID3算法的计算过程。同时，讨论了ID3算法的优缺点及其在数据挖掘中的应用。

摘要由CSDN通过智能技术生成

决策树算法：决策树是对数据进行分类，以此达到预测的目的。该决策树方法先根据训练集数据形成决策树，如果该树不能对所有对象给出正确的分类，那么选择一些例外加入到训练集数据中，重复该过程一直到形成正确的决策集。决策树代表着决策集的树形结构。决策树由决策结点、分支和叶子组成。决策树中最上面的结点为根结点，每个分支是一个新的决策结点，或者是树的叶子。每个决策结点代表一个问题或决策，通常对应于待分类对象的属性。每一个叶子结点代表一种可能的分类结果。沿决策树从上到下遍历的过程中，在每个结点都会遇到一个测试，对每个结点上问题的不同的测试输出导致不同的分支，最后会到达一个叶子结点，这个过程就是利用决策树进行分类的过程，利用若干个变量来判断所属的类别。

ID3 (Iterative Dichotomiser 3) 是由Ross Quinlan提出的分类预测算法；用以给一个数据集创建决策树。该算法是以信息论为基础，以信息熵和信息增益为衡量标准，从而实现对数据的归纳分类。

预备知识

信息的定量描述：衡量信息多少的物理量称为信息量。
- 若概率很大，受信者事先已有所估计，则该消息信息量就很小；
- 若概率很小，受信者感觉很突然，该消息所含信息量就很大。
信息量的定义：若一个消息x出现的概率为p，则这一消息所含的信息量为： $I= -log_2 p$ 其中，对数的底大于1。以2为底时，单位为 bit（binary unit，比特）

例如：抛一枚均匀硬币，出现正面与反面的信息量是多少？
出现正面与反面的概率均为0. 5,故， $I(正)=-log_2\frac{1}{2} = 1b$ 。当然， $I(反)=-log_2\frac{1}{2} = 1b$
信源含有的信息量是信源发出的所有可能消息的平均不确定性，香农把信源所含有的信息量称为信息熵(entropy)。是指每个属性所含信息量的统计平均值。m种属性的平均信息量为:
$H(x) = \sum_{i=0}^mp(x_i)I(x_i) =- \sum_{i=0}^mp(x_i)log_2p(x_i)$

例如：抛一枚均匀硬币的信息熵是多少？ $H(x) = -\sum_{i=1}^2p(x_i)log_2p(x_i) = -(0.5log_2\frac{1}{2}+0.5log_2\frac{1}{2}) = 1b$
当 $H(x)=0$ 意味着数据集 $X$ 被完美的分类了（即所有元素都属于同一类别）。ID3会为每一个属性计算信息熵，具有最小信息熵的属性在本次迭代中用来划分数据集 $X$ 。
条件自信息量:
在事件 $y_j$ 出现的条件下，随机事件 $x_i$ 发生的条件概率为 $p(x_i | y_j)$ ，则它的条件自信息量定义为条件概率对数的负值： I(xi|yj)=−log2p(

最低0.47元/天解锁文章

关注

4
点赞
踩
30

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。