机器学习实战之决策树

最新推荐文章于 2024-01-08 19:00:00 发布

糖甜甜甜74

最新推荐文章于 2024-01-08 19:00:00 发布

阅读量533

点赞数

分类专栏：机器学习 python 文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Pylady/article/details/78930062

版权

本文深入探讨了决策树的学习过程，包括信息熵、信息增益、信息增益率和基尼指数等关键概念。介绍了ID3算法的决策树构建步骤，并提供了实践中的数据处理和递归构建决策树的方法。最后，以《机器学习实战》中的案例数据验证了决策树的构建过程。

摘要由CSDN通过智能技术生成

简介：

决策树是一类常见的机器学习方法，以二分类任务为例，我们希望从给定训练数据集学得一个模型用以对新数据进行分类，比如通过一组数据通过模型训练得到以下的决策树：

理论：

决策树学习的关键是如何选择最优划分属性，一般而言，随着划分过程不断进行，我们希望决策树的分支结点所包含的样本尽可能属于同一类别，即结点的“纯度”越来越高。

1、信息熵

熵定义为信息的期望值，在明晰这个概念之前，我们必须知道信息的定义。如果待分类的事
务可能划分在多个分类之中，则符号 $x_i$ 的信息定义为

l(i)=−log2pi $l(i)=-log_2p_i$

其中 $p_i$ 是当前样本集合D中第i类样本所占的比例。

为了计算熵，我们需要计算所有类别所有可能值包含的信息期望值，通过下面的公式得到：

H=−∑ni=1pilog2pi $H=-\sum _{i=1}^np_ilog_2p_i$

其中n是分类的数目,H的值越小，则数据纯度越高。

2、信息增益

假定当前样本集D按照属性a来分类，a的属性取值有 (a1,a2,

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习实战之决策树

简介：决策树是一类常见的机器学习方法，以二分类任务为例，我们希望从给定训练数据集学得一个模型用以对新数据进行分类，比如通过一组数据通过模型训练得到以下的决策树：理论：决策树学习的关键是如何选择最优划分属性，一般而言，随着划分过程不断进行，我们希望决策树的分支结点所包含的样本尽可能属于同一类别，即结点的“纯度”越来越高。1、信息熵熵定义为信息的期望值，在明晰这个概念之前，我们必须知道信息的定义。如
复制链接

扫一扫

专栏目录

糖甜甜甜74 CSDN认证博客专家 CSDN认证企业博客

码龄7年

58: 原创

29万+: 周排名

197万+: 总排名

20万+: 访问

: 等级

1799: 积分

227: 粉丝

108: 获赞

57: 评论

534: 收藏

私信

关注

热门文章

分类专栏

word 1篇
excel 5篇
python 10篇
机器学习 7篇
数学基础 2篇
R 2篇

最新评论

Sklearn ValueError: empty vocabulary; perhaps the documents only contain stop words
JY0222: 不管用啊
数据分析36计(25)：微软开源 DoWhy 之因果分析快速入门
m0_66658302: 请教～我在执行这一步estimands = model.identify_effect()print(estimands)时候，一直提示：没有变量，， Estimand type: EstimandType.NONPARAMETRIC_ATE ### Estimand : 1 Estimand name: backdoor No such variable(s) found! ### Estimand : 2 Estimand name: iv No such variable(s) found! ### Estimand : 3 Estimand name: frontdoor No such variable(s) found! 一样的数据一样的代码…我不理解...
数据分析36计(24)：因果推断结合机器学习估计个体处理效应
2301_77705138: 有完整的原文吗
数据分析36计(30)：关于 AB 实验的 1.5 万字总结
sea84: 我是在看《关键迭代：可信赖的线上对照实验》正态性假设那个部分（p179）的时候跟你有同样的疑惑，这本书还提到，对于使均值服从正态分布所需的最小样本量，一个经验法则是每个变体为偏度的平方的355倍。这个经验法则怎么来的可以看下面这篇文章的第七条rule， R. Kohavi, A. Deng, R. Longbotham, Y. Xu (2014) Seven Rules of Thumb for Web Site Experimenters. In: KDD'14. New York, NY, USA. 大概也能解答为什么有这个正态性的问题。
数据分析36计(24)：因果推断结合机器学习估计个体处理效应
2301_78017402: 有完整文章吗?

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。