决策树算法介绍与代码编写

最新推荐文章于 2021-04-03 17:36:20 发布

你要不要来

最新推荐文章于 2021-04-03 17:36:20 发布

阅读量527

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/stx1998/article/details/75804082

版权

本文介绍了决策树的基本定义和结构，深入讲解了信息论基础，包括熵、条件熵和信息增益，并详细阐述了ID3算法的工作原理。此外，还涵盖了如何在Python中编写决策树代码以及使用Matplotlib绘制树形图。

摘要由CSDN通过智能技术生成

1.基本定义：

决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。

2.基本结构：

决策树是一种用于对实例进行分类的树形结构，由节点和有向边组成。节点的类型有两种：内部节点和叶子节点。其中，内部节点表示一个特征或属性的测试条件（用于分开具有不同特性的记录），叶子节点表示一个分类。如图3-1构造了一个假象的邮件分类系统，它首先检测发送邮件域名地址。如果地址为myEmployer.com,则将其放在分类“无聊时需要阅读的邮件”中。如果不是，则检查邮件内容里是否包含单词“曲棍球”，如果包含则将邮件归类到“需要及时处理的朋友邮件”，如果不包含则将邮件归类到“无需阅读的垃圾邮件”。

3.构造决策树：

首先我们使用 信息论 划分数据集，然后编写代码理论应用到具体的数据集上，最后编写代码构建决策树。

信息论基础：

熵：

熵度量了事物的不确定性，越不确定的事物，它的熵就越大。具体的，随机变量X的熵的表达式如下：

$H(X)=-\sum_{i=1}^{n}pilogpi$

其中n代表X的n种不同的离散取值。而pi代表了X取值为i的概率，log为以2为底的对数。

条件熵：

它度量了我们的X在知道Y以后剩下的不确定性。表达式如下：

最低0.47元/天解锁文章

你要不要来

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树算法介绍与代码编写

1.基本定义：决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。2.基本结构：决策树是一种用于对实例进行分类的树形结构，由节点和有向边组成。节点的类型有两种：内部节点和叶子节点。其中，内部节点表示一个特征或属性的测试条件（用于分开具有不
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。