机器学习之决策树ID3算法

最新推荐文章于 2024-04-28 23:23:24 发布

sharon@zhang

最新推荐文章于 2024-04-28 23:23:24 发布

阅读量1.4k

点赞数 1

分类专栏：机器学习文章标签：算法决策树机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/baidu_41797613/article/details/120502093

版权

机器学习之ID3算法

1、信息熵
2、ID3算法

1、信息熵

首先我们来介绍一下信息熵（entropy）的概念，它表示了信息的不确定度。
在信息论中，随机离散时间出现的概率存在着不确定性，为了衡量这种信息的不确定性，信息学之父香农引入了信息熵的概念，并给出了计算信息熵的数学公式：
在这里插入图片描述
p(i|t) 代表了节点 t 为分类 i 的概率，其中 log2 为取以 2 为底的对数。这里我们不是来介绍公式的，而是说存在一种度量，它能帮我们反映出来这个信息的不确定度。当不确定性越大时，它所包含的信息量也就越大，信息熵也就越高。

举个简单的例子，假设有2个集合：
集合1:5次去打篮球，1次不去打篮球
集合2:3次去打篮球，3次不去打篮球。

集合1计算信息熵为：
在这里插入图片描述
集合2也同理可得：

从上面的计算结果中可以看出，信息熵越大，纯度越低。当集合中的所有样本均匀混合时，信息熵最大，纯度最低。

2、ID3算法

ID3 算法计算的是信息增益，信息增益

最低0.47元/天解锁文章

关注

1
点赞
踩
14

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习之决策树ID3算法

机器学习之ID3算法1、信息熵2、ID3算法1、信息熵首先我们来介绍一下信息熵（entropy）的概念，它表示了信息的不确定度。在信息论中，随机离散时间出现的概率存在着不确定性，为了衡量这种信息的不确定性，信息学之父香农引入了信息熵的概念，并给出了计算信息熵的数学公式：p(i|t) 代表了节点 t 为分类 i 的概率，其中 log2 为取以 2 为底的对数。这里我们不是来介绍公式的，而是说存在一种度量，它能帮我们反映出来这个信息的不确定度。当不确定性越大时，它所包含的信息量也就越大，信息熵也就越高
复制链接

扫一扫

专栏目录

sharon@zhang CSDN认证博客专家 CSDN认证企业博客

码龄6年

37: 原创

10万+: 周排名

73万+: 总排名

22万+: 访问

: 等级

548: 积分

18: 粉丝

152: 获赞

18: 评论

557: 收藏

私信

关注

热门文章

分类专栏

数据库 3篇
sql 2篇
debug 3篇
python报错解决 3篇
机器学习 9篇
python基础知识 17篇
numpy 1篇
pandas 10篇
数据分析 7篇
LeetCode 1篇
数据清洗 1篇

最新评论

TypeError: Population must be a sequence. For dicts or sets, use sorted(d).
忘川578: 请问下如何修改d.dataframe?
TypeError: Population must be a sequence. For dicts or sets, use sorted(d).
忘川578: Traceback (most recent call last): File "c:Prooram FileslJet3rainsiPycharm Community Edition 2023.1.4\plugins python-ce helpers pydevpydevd.py", line 14%6,in _execpydev_imports.execfile(file, globals, locals) # execute the scriptRRRRRRRRRRRRRRRRRRRRRRRRRARRRRARRRRARRRAile "c: Program FileslJetBrainsycham omunity Edition 2025.1.4pluginsipython-ce helpersipydevl_pydey_imps_pydevexecfile.py", line 18,in execfileexec(compile(contents+"\n"， file.exec'), glob， loc)File "D:\工具们\py.work\pythonProject4\graphsAGEpytorch7.27\src\main.py"， line 73，in <module>ds, graphsage, classification, unsupervised loss. args,b sz.qraphSage， classification = apply_model(dataCenter.device，args.learn_methodargs .unsup loss .AAAAAAAAAARAAAAAAAAAAAAAAAAAAAAAAAAAARAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAARAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAFile "n:\T File "D:\工具们\py10.11.4\Lib\random.py"，tine 439，in sampleraise TypeError("Population must be a sequence.For dicts or sets, use sorted(d) TypeError: Population must be a sequence.
SQL中row_number函数用法
weixin_46701500: 很透彻，懂了
TypeError: Population must be a sequence. For dicts or sets, use sorted(d).
A11280304: 好的，我已经解决了
TypeError: Population must be a sequence. For dicts or sets, use sorted(d).
sharon@zhang: 这里的话，d.dataframe代表一个dataframe。可以根据需要改成自己的数据

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

sharon@zhang 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。