机器学习笔记（4）——ID3决策树算法及其Python实现

最新推荐文章于 2025-02-27 13:32:20 发布

赵赵赵颖

最新推荐文章于 2025-02-27 13:32:20 发布

阅读量3.8w

点赞数 79

分类专栏：机器学习笔记文章标签：机器学习决策树 ID3 信息熵

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/leaf_zizi/article/details/82848682

版权

本文介绍了ID3决策树算法，包括利用信息增益选择最优划分属性，递归构建决策树，并通过Matplotlib绘制决策树。还讨论了算法的测试、存储以及其在处理离散属性样本分类中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

决策树是一种基于树结构来进行决策的分类算法，我们希望从给定的训练数据集学得一个模型（即决策树），用该模型对新样本分类。决策树可以非常直观展现分类的过程和结果，一旦模型构建成功，对新样本的分类效率也相当高。

最经典的决策树算法有ID3、C4.5、CART，其中ID3算法是最早被提出的，它可以处理离散属性样本的分类，C4.5和CART算法则可以处理更加复杂的分类问题，本文重点介绍ID3算法。

举个例子：夏天买西瓜时，我一般先选瓜皮有光泽的（新鲜），再拍一拍选声音清脆的（成熟），这样挑出来的好瓜的可能就比较大了。那么我挑西瓜的决策树是这样的：

下面，我们就对以下表格中的西瓜样本构建决策树模型。

1. 利用信息增益选择最优划分属性

样本有多个属性，该先选哪个样本来划分数据集呢？原则是随着划分不断进行，我们希望决策树的分支节点所包含的样本尽可能属于同一分类，即“纯度”越来越高。先来学习一下“信息熵”和“信息增益”。

信息熵（information entropy）

样本集合D中第k类样本所占的比例 p_k （k=1,2,...,|Y|），|Y|为样本分类的个数，则D的信息熵为：

$Ent(D)=-\sum_{k=1}^{|Y|}p_klog_2p_k$

Ent(D)的值越小，则D的纯度越高。直观理解一下：假设样本集合有2个分类，每类样本的比例为1/2，Ent(D)=1；只有一个分类，Ent（D）= 0，显然后者比前者的纯度高。

在西瓜样本集中，共有17个样本，其中正样本8个，负样本9个，样本集的信息熵为：

$Ent(D)=\sum_{k=1}^{2}p_klog_2p_k=-(\frac{8}{17}log_2\frac{8}{17}+\frac{9}{17}log_2\frac{9}{17})=0.998$

信息增益（information gain）

使用属性a对样本集D进行划分所获得的“信息增益”的计算方法是，用样本集的总信息熵减去属性a的每个分支的信息熵与权重（该分支的样本数除以总样本数）的乘积，通常，信息增益越大，意味着用属性a进行划分所获得的“纯度提升”越大。因此，优先选择信息增益最大的属性来划分。设属性a有V个可能的取值 $\left \{ a^1,a^2,...,a^V \right \}$ ，则属性a的信息增益为：

$Gain(D,a)=Ent(D)-\sum_{v=1}^{V}\frac{|D^v|}{|D|}Ent(D^v)$

西瓜样本集中，以属性“色泽”为例，它有3个取值{青绿、乌黑、浅白}，对应的子集 D^1 （色泽=青绿）中有6个样本，其中正负样本各3个， D^2 （色泽=乌黑）中有6个样本，正样本4个，负样本2个， D^3 （色泽=浅白）中有5个样本，正样本1个，fuya负样本4个。

最低0.47元/天解锁文章

评论 53

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。