机器学习笔记---信息熵

最新推荐文章于 2023-10-12 20:28:41 发布

Blank_spaces

最新推荐文章于 2023-10-12 20:28:41 发布

阅读量623

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Blank_spaces/article/details/106066772

版权

点击上方“潜心的Python小屋”关注我们，第一时间推送优质文章。

前言

大家好，我是潜心。休整（偷懒）一星期后，我决定还是写一些关于机器学习的笔记，单纯写Python文档确实有点无聊。因为最近在看《百面机器学习》，刚看到决策树，发现把信息论的相关知识给忘了，翻了下笔记，准备分享给大家。

本文约1k字，预计阅读10分钟。

信息论

信息论主要研究的是对一个信号包含信息的多少进行量化。

基本想法：一个不太可能的事情发生了，要比一个非常可能的事情发生，能提供更多的信息。

自信息

定义一个事件的自信息，它应满足三个性质：

非常可能的事情信息量比较少；
较不可能的事情具有更高信息量；
独立事件应具有增量的信息（如抛硬币两次正的信息量应是一次的两倍）；

故有公式：，表示一个事件发生的概率

注：log底数为e，I(x)单位为奈特；底数为2，单位是比特或香农；

信息熵

信息熵也称香农熵，是对整个概率分布中的不确定性总量进行量化。

信息熵需要满足三个性质：

单调性，概率越高，携带的信息量越低；
非负性；
累加性：多随机事件同时发生的总不确定性的量度可以表示为各事件不确定性量度的和；

累加性：

事件同时发生，两个事件相互独立，即

,

故信息熵：

香农从数学上严格证明了满足上述三个条件的随机变量不确定性度量函数具有唯一形式：

，其中代表独立事件的集合

其中为常数，当时，即为信息熵公式。

熵的取值范围为：，为取值的种类

物理意义：熵代表了随机变量的不确定性（即混乱程度）。熵越大，代表随机变量的不确定性越大。当变量可取值的种类一定时，其取每种值的概率分布越平均，其熵值越大。

例：二值随机变量的香农熵（伯努利分布熵）

随机变量取值为{0, 1}，则的概率分布为：

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记---信息熵

点击上方“潜心的Python小屋”关注我们，第一时间推送优质文章。前言大家好，我是潜心。休整（偷懒）一星期后，我决定还是写一些关于机器学习的笔记，单纯写Python文档确实有点无聊。因为...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。