信息熵公式的详细讲解

最新推荐文章于 2025-03-20 10:42:24 发布

三岁就很萌@D

最新推荐文章于 2025-03-20 10:42:24 发布

阅读量8.3k

点赞数 11

分类专栏：机器学习算法文章标签： 1024程序员节

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44822951/article/details/109254549

版权

信息熵概率信息量离散随机变量对数函数

关键词由CSDN通过智能技术生成

机器学习算法专栏收录该内容

17 篇文章

订阅专栏

信息熵是衡量离散随机变量不确定性的度量。它基于概率论，与事件发生的概率成反比。当事件发生的概率越大，信息熵越小；反之，概率越小，熵越大。信息熵的公式为H(X)=-∑(p(x)log(p(x)))，其中p(x)是事件x发生的概率。公式中的负号确保熵为正，对数函数使得概率和信息量呈反比。信息熵在信息论和许多科学领域中都有广泛应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

信息熵的公式

设X是一个取有限个值的离散随机变量其概率分布如下
在这里插入图片描述则随机变量X的熵可以表示为

在这里插入图片描述
这个公式是如何来的？下面我将为大家详细介绍一下

首先介绍一个概念——信息量 。信息量是对信息的一个度量。信息量跟一件事情所发生的概率有关。通常而言一件事情发生的概率越大，那它产生的信息就越小。

举个例子:
假如我是一个每天都按时上学的乖孩子
某个普通的星期一
我跟妈妈说:妈妈我去上学了妈妈继续做她手里的事情说哦，注意安全
但是如果我跟妈妈说妈妈我今天不去上学了妈妈可能反应比较大问为什么不去上学你是生病了吗？还是在学校受欺负了？等等

我们可以看出 我去上学是一件概率很大的事，所以几乎没有产生什么信息。而我不去上学发生的概率很小，产生了较大的信息。

由此可以看出，我们可以用一个递减的函数来表示某件事情发生的概率与这件事情发生产生的信息量的关系。
h(x) =f(p(x)) 其中 f 表示一个递减的函数

但是递减的函数好多呀用哪一个呢？

注意到还有一个性质: 如果两个事件 X,Y是相互独立的那么这两个事件同时发生所产生的信息量等于这两个事情各自独立发生产生的信息量之和即 h(x,y) = h(x)+h(y)

而这两个事情同时发生的概率是 p(x,y) =p(x)*p(y)

通过这个性质我们很自然的会想到对数函数
h(x,y)=-log(p(x,y))=-log(p(x)*p(y))=-(log(p(x))+log(p(y)))= -(h(x)+h(y))
(log按通常取值以2为底当然也可以以e为底）
之所以在前面需要加一个负号是因为p(x,y) 是一个概率必然取值在[0,1] 之间而当x在[0,1]时 log(x) 是一个小于0 的值但是信息量明显是一个大于0的值，所以我们在前面加上一个负号

log₂(x) 的图像如下在这里插入图片描述这样一个事件 X 发生时产生的信息量
可以表示为 H(X)=-log(P(X)）

由于我们之前在介绍信息熵公式的时候说了X是一个取有限个值的离散随机变量，说明X可以取多个值, 所以信息熵其实是当X取不同值时对信息量取了期望

也就是最后的公式啦
在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。