香农熵

最新推荐文章于 2024-08-09 15:29:41 发布

jxc_

最新推荐文章于 2024-08-09 15:29:41 发布

阅读量321

点赞数

分类专栏：机器学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42761645/article/details/103433851

版权

机器学习笔记专栏收录该内容

14 篇文章 0 订阅

订阅专栏

香农熵，又称信息熵，熵，可以用来代表某数据集合的不一致性。熵的值越高，则代表数据集的不一致性越高。

熵与概率的关系

举例：当一个桶中有四个球，从左到右分别为红色、红色、红色、绿色。现有放回地从桶中抓球，每次抓取一个，求抓出球的顺序仍然为红、红、红、蓝的概率。

可知，第一次抓出红球的概率：0.75

第二次抓出红球的概率：0.75

第三次抓出红球的概率：0.75

第四次抓出绿球的概率：0.25

按顺序抓出四个球的概率：0.75*0.75*0.75*0.25 = 0.105

若桶中的四个球都是红色，那么我们按顺序抓出四个球的概率是1。

这个时候我们发现当桶里的球更加多样(不一致)的时候，概率更高，熵代表的值和概率对于不一致性的关系是相反的。

我们知道熵的计算公式：

$H = -Σ_{i=1}^{n}p(x_{i})log_2p(x_{i})$

从概率到熵：

我们知道 $log(ab) = log(a)+lob(b)$

有 $-log_2(0.75)-log_2(0.75)-log_2(0.75)-log_2(0.25) =-log_2( 0.105)=3.245$

取均值有0.25*3.245 = 0.811

还可写成： $-\frac{3}{4}*log_2{0.75}-\frac{1}{4}log_20.25 = 0.811$

同时，若桶中均为红球，那么有： $-log_2(1)-log_2(1)-log_2(1)-log_2(1) =0$

更通用的公式显而易见：

当桶中有m个红球、n个绿球时，有：

$Entropy = \frac{-m}{m+n}*log_2(\frac{m}{m+n})+\frac{-n}{m+n}*log_2(\frac{n}{m+n})$

至此得到熵的公式。

在决策树中，通过计算划分出的不同数据集的熵，分别与划分之前数据集的熵比较得出信息增益，得出信息增益最高的数据集的情况，此时的特征则为决策树此时创建分支的最好特征。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄6年

38
原创

1
点赞

14
收藏

0
粉丝

关注

私信

热门文章

分类专栏

最新评论

以太网的来龙去脉及关键技术
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接；(3)增加除了各种控件外，文章正文的字数。
js字符串与数组转化
ctotalk: good.
9.类
ctotalk: thanks,欢迎关注一起交流

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。