决策树的ID3、C4.5算法

最新推荐文章于 2021-10-26 16:38:21 发布

pilipala6868

最新推荐文章于 2021-10-26 16:38:21 发布

阅读量625

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pilipala6868/article/details/79939754

版权

1、信息熵

欲理解ID3算法，首先需要了解一下信息学里的信息熵概念。

信息熵是对当前信息情况复杂度、未知度的一种度量，当前情况越复杂，即未知度越高，熵值就越大。

举个例子，小明今晚要去电影院看电影，我们想要了解的情况是小明会坐在电影院的哪个位置，这时候有三种情况：

1、电影院没有别人，全场50个座位任小明挑选；

2、电影院只剩两个处于同个区域的座位；

3、电影院一样只剩两个座位，但这两个座位一个在影院的正中间，一个在最角落。

以上三种情况里，我们很容易能看出来，第三种情况对我们来说是最友好的（我们的目标是了解小明会坐在哪里），而第一种情况是最不友好的。放在熵（entropy）的数值上来比较，就是Ent1>Ent2>Ent3。

从1、2种情况的比较，我们能知道，信息熵的大小应该跟事件的数量有关，事件（可选座位）越多，信息熵越大。

从2、3种情况的比较，我们还能知道，信息熵的大小还跟事件发生的概率有关，像2、3虽然都只有两个事件（座位），但2的座位可能选择的概率是五五开，而3的概率可能是99%和1%，当然我们默认一般人都是喜欢坐在正中间的位置看电影的。

所以我们知道，信息熵的大小应该跟可能事件的数量和概率相关。

接着我们来看一下信息熵的计算公式：

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树的ID3、C4.5算法

1、信息熵欲理解ID3算法，首先需要了解一下信息学里的信息熵概念。信息熵是对当前信息情况复杂度、未知度的一种度量，当前情况越复杂，即未知度越高，熵值就越大。举个例子，小明今晚要去电影院看电影，我们想要了解的情况是小明会坐在电影院的哪个位置，这时候有三种情况：1、电影院没有别人，全场50个座位任小明挑选；2、电影院只剩两个处于同个区域的座位；3、电影院一样只剩两个座位，但这两个座位一个在影院的正中间...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。