简单易懂的人工智能系列：决策树之ID3

最新推荐文章于 2024-03-27 19:00:04 发布

薛定谔的猫96

最新推荐文章于 2024-03-27 19:00:04 发布

阅读量727

点赞数 1

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42415326/article/details/104767111

版权

机器学习专栏收录该内容

18 篇文章 2 订阅

订阅专栏

决策树：构建流程

准备工作：明确自变量和因变量，确定信息度量的方式，确定终止条件

选择特征：得到当前待处理子集，计算所有特征信息度量，得到当前最佳分类特征

创建分支：根据选中特征将当前记录分成不同分支，分支个数取决于算法

是否终止：判断是否满足终止条件，满足退出循环，否则继续递归调用

生成结果：判断是否需要剪枝，需要则适当修剪，否则为最终结果

说明性的栗子：

决策树

决策树(decision tree)是一种基本的分类与回归方法。

可以这样理解，分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。

结点有两种类型：内部结点(internal node)和叶结点(leaf node)。内部结点表示一个特征或属性，叶结点表示一个类。如下图所示的决策树，理解就好。

可以把决策树看成一个if-then规则的集合，将决策树转换成if-then规则的过程是这样的：由决策树的根结点(root node)到叶结点(leaf node)的每一条路径构建一条规则；路径上内部结点的特征对应着规则的条件，而叶结点的类对应着规则的结论。决策树的路径或其对应的if-then规则集合具有一个重要的性质：互斥并且完备。这就是说，每一个实例都被一条路径或一条规则所覆盖，而且只被一条路径或一条规则所覆盖。这里所覆盖是指实例的特征与路径上的特征一致或实例满足规则的条件。

接下来我们就通过一个栗子来详细说明决策树的构建流程。已知电脑购买记录，对购买者进行建模，预测新用户是否购买电脑。

准备工作

电脑购买记录数据如下：

观察数据，明确自变量（年龄，收入层次，是否单身，信用等级）和因变量（是否购买电脑）

自变量
因变量

明确信息度量方式：熵 — 信息增益（ID3）

熵
基尼系数

明确分支终止条件：纯度

纯度
记录条数：当前待处理的记录条数是否小于一个阈值
循环次数

信息熵：是信息论里面的概念，由香农提出，是用来描述混乱程度的度量，它的取值范围0~1，值越大，说明越混乱。熵定义为信息的期望值：公式如下：

那么假如样本数据表中的数据为训练数据集D，则训练数据集D的经验熵为H(D)，|D|表示其样本容量，及样本个数。设有K个类Ck, = 1,2,3,...,K,|Ck|为属于类Ck的样本个数，因此信息熵公式就可以写为：

举个栗子：有一堆苹果和梨共 100 个，随机拿出一个，拿出的是哪一种水果？

50个苹果 + 50个梨子
0个苹果+100个梨子
80个苹果+20 个梨子

第一种情况的信息熵为1，说明混乱程度最大，也就是想要提前预测拿出的水果是啥的难度最大，第二中全是梨，说明混乱程度最小，拿出一个水果则一定是梨子，而第三种情况的信息熵为0.722，混乱程度不算最大，但是想要预测是苹果还是梨子还是有一定的难度。熵，就是描述当时现象，事物的混乱程度

信息增益和特征选择

信息增益就是指从一个状态到另一个状态后，信息的确定性的增加，信息增益越大，那么对信息确定性的贡献也就越大。比如我们收集到了几种植物果实的颜色和气味，根据这两个信息确定是否无水果？

不考虑任何特征，直接去估计结果：

也就是说直接来猜测的话，出错的概率是最大的。然后考虑以颜色为参考信息，判断是否为水果：

说明以颜色作为参考信息，混乱程度下降了，确定性增加了。

那我们考虑以味道为参考信息，判断是否为水果：

那么只根据味道来判断，甜就是水果，不甜就不是水果，可以说完全确定，不存在混乱了。

所以，信息增益：

颜色：1- 0.689 = 0.311
味道：1-0 = 1

味道的信息增益更大，所以基于这个数据集，就会优先考虑味道这个特征所谓划分依据。

构建决策树

回到之前的电脑购买记录数据集：

编写产生数据矩阵的函数 createDataSet：

第一级特征选择

编写计算整体熵的函数calcAllInfoEnt：

计算整体的熵：购买9例，未购买：5例

编写计算条件特征熵和信息增益的函数chooseBestFeatureToSplit和划分数据集的函数

计算年龄的熵：

计算收入的熵：

计算单身的熵：

计算信用的熵：

计算各个特征的信息增益：

所以，选择年龄作为当前最佳特征（索引0）。

按照取值产生分支

年龄作为分支条件，所以在子路径中就没有年龄这个特征了：

首先来看青少年这个分支，该分支是否满足终止条件（小于最小记录数，或者纯度为1，或者循环次数）

计算当前分支信息增益后，选择是否单身作为当前最佳特征：

因此，下一级以是否单身作为分支条件，子已经满足终止条件：

其他分支的二级特征选择方法相同。不再赘述。

生成构建的决策树

编写生成决策树的函数：

输出模型如下（字典表示）：

这个就是我们构建的决策树模型：

if 青少年 && 单身 then 买；
if 青少年 && 不单身 then 不买；
if 中年 then 买；
if 老年&& 信用一般 then 买；
if 老年&& 信用良好 then 不买；

总结

以上介绍的算法是ID3 (Iterative Dichotomiser 3 ，迭代树三代），是由Ross Quinlan提出的：

核心是信息熵，根据信息增益来决定输的节点。

存在以下问题：

信息度量不合理：倾向于选择取值多的字段
输入类型单一：离散型
不作剪枝：容易发生过拟合

C4.5（J.Ross Quinlan在ID3的基础上提出的）：和 ID 3相比的改进：

用信息增益率代替信息增益
能对连续属性进行离散化，对不完整数据进行处理
进行剪枝

C50：相比C4.5的改进：

使用了boosting
前修剪、后修剪

CART（Classification and Regression Tree），是由下面三个大牛一起提出的

核心是基尼系数（Gini）
分类是二叉树
支持连续值
后剪枝进行修剪
支持回归，可以预测连续值

ID3，C4.5，CART三种决策树算法的对比：

薛定谔的猫96

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

薛定谔的猫96 CSDN认证博客专家 CSDN认证企业博客

码龄6年

400: 原创

3万+: 周排名

100万+: 总排名

75万+: 访问

: 等级

8086: 积分

473: 粉丝

689: 获赞

80: 评论

4129: 收藏

私信

关注

热门文章

分类专栏

计算机网络 2篇
剑指offer 68篇
数据库 4篇
数学 1篇
Golang 4篇
开发工具 1篇
C/C++ 24篇
Python 83篇
Flask 3篇
Django 9篇
Vim 3篇
机器学习 18篇
git和github入门 5篇
量子通信和量子计算 1篇
操作系统 5篇
数据结构 6篇
计算机组成原理 7篇
算法 6篇
后端 30篇
前端 123篇
下载安装的教程 5篇
Linux运维 16篇
web 8篇
版本管理 7篇
爬虫 7篇
面试 23篇

最新评论

轻量级web开发框架：Flask 基础教程
萨尔兹堡: 请问有Windows版本的吗
Django初步使用Celery处理耗时任务和定时任务
北风之神c: 总结的很全面，写得赞，博主用心了。 celery对目录层级文件名称格式要求太高，只适合规划新的项目，对不规则文件夹套用难度高。所以新手使用celery很仔细的建立文件夹名字、文件夹层级、python文件名字。所以网上的celery博客教程虽然很多，但是并不能学会使用，因为要运行起来需要以下6个方面都掌握好，博客文字很难表达清楚或者没有写全面以下6个方面。 celery消费任务不执行或者报错NotRegistered，与很多方面有关系，如果要别人排错，至少要发以下6方面的截图，因为与一下6点关系很大。 1)整个项目目录结构, 2）@task入参 ,3）celery的配置，4）celery的配置 include ,5）cmd命令行启动参数 --queues= 的值,6）用户在启动cmd命令行时候，用户所在的文件夹。在不规范的文件夹路径下，使用celery难度很高，一般教程都没教。 [项目文件夹目录格式不规范下的celery使用演示](https://github.com/ydf0509/celery_demo) 。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c1.html ，从用法调用难度，用户所需代码量，超高并发性能，qps控频精确程度，支持的中间件类型，任务控制方式，稳定程度等20个方面全方位超过celery。发布性能提高1000%，消费性能提高2000%。 python万能分布式函数调度框架funboost支持python所有类型的并发模式和一切知名消息队列中间件，python函数加速器，只需要一行代码调度任意函数，框架包罗万象,万能编程功能宝典，一统编程思维，与业务不绑定，适用范围广。 pip install funboost
关于浏览器输入一个网址后页面经历的过程总结
2301_81025433: 1337798922388888888
Python数据分析基础技术之pandas（史上最全面）
Aphil_D: 我觉得DataFrame.unique()实现的效果比起“查询不重复的值”更像“统计值的种类”，.nunique()就是“统计值的种数”。
前端需要理解的 HTML 知识
海洋之心: HTML总结的很好，很适合新手学习

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

薛定谔的猫96 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。