机器算法学习-1.信息熵

最新推荐文章于 2025-03-30 21:46:04 发布

疼腾2333

最新推荐文章于 2025-03-30 21:46:04 发布

阅读量1.9k

点赞数 4

分类专栏：机器学习文章标签：算法学习机器学习

本文链接：https://blog.csdn.net/qq_39437900/article/details/131676268

版权

机器学习专栏收录该内容

1 篇文章

订阅专栏

机器算法学习-1.信息熵

1 定义
2 解释
3 公式
4 其他概念

1 定义

熵的概念源自热物理学。熵代表了系统的混乱程度，微观状态的数量越大，混乱程度越高，熵越大。

信息理论的鼻祖之一Claude E. Shannon把信息（熵）定义为离散随机事件的出现概率。
所谓信息熵，是一个数学上颇为抽象的概念，在这里不妨把信息熵理解成某种特定信息的出现概率。而信息熵和热力学熵是紧密相关的。根据Charles H. Bennett对Maxwell’s Demon的重新解释，对信息的销毁是一个不可逆过程，所以销毁信息是符合热力学第二定律的。而产生信息，则是为系统引入负（热力学）熵的过程。所以信息熵的符号与热力学熵应该是相反的。
一般而言，当一种信息出现概率更高的时候，表明它被传播得更广泛，或者说，被引用的程度更高。我们可以认为，从信息传播的角度来看，信息熵可以表示信息的价值。这样子我们就有一个衡量信息价值高低的标准，可以做出关于知识流通问题的更多推论。

2 解释

信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序，信息熵就越低；反之，一个系统越是混乱，信息熵就越高。所以，信息熵也可以说是系统有序化程度的一个度量。
信息量度量的是一个具体事件发生了所带来的信息，而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值，即所有可能发生事件所带来的信息量的期望。

举个栗子：假定你的朋友告诉你“你中了一千万的彩票”，你内心的惊愕程度就由于这个信息“你中了一千万的彩票”带来的，所以这个惊愕度就是事件“你中了一千万的彩票”的信息熵。

简单来讲信息熵则是为了量化信息的不确定而设计的度量。当一个事件发生概率很小并发生了，事件的信息量大。当一个事件发生概率很大并发生了，事件的信息量小。
信息的大小跟随机事件的概率有关。越小概率的事情发生了产生的信息量越大，如外星人进攻地球了；越大概率的事情发生了产生的信息量越小，如太阳从东边升起来了（每天都在发生，几乎没有接收什么新信息）。

3 公式

信息量度量的是一个具体事件发生了所带来的信息，而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值，即所有可能发生事件所带来的信息量的期望。即

$H(X) = -sum(P(x) \log_2P(x))$

转换一下为

$-\sum_{i=1}^{n} P(x_i) \log_2P(x_i)$

单位为比特，其中 $P(x_i)$ 代表随机事件X为 $x_i$ 的概率。

为什么选择累加
当我们同时得知两个不相关的事件x和y，那么我们观察到的俩个事件同时发生时获得的信息应该等于观察到的事件各自发生时获得的信息之和。
因此信息量函数应该满足累加性，当随机变量X和随机变量Y是相互独立时： $P (x y) = P (x) * P (y)$
信息量应满足： $H (x + y) = H (x) + H (y)$
为什么选择对数函数
之前提过事件的信息量和概率有关，又要满足累加性，因此对数函数最可以体现概率密度函数和信息量之间的关系。
$H(x) = -log_2P(x)$
$H(x+y)=-log_2P(x,y)=-log_2(P(x)*P(y))=-(logP(x)+logP(y))$
为了求出整个随机变量的平均信息量，即随机变量信息量的期望，即可得出：
$-\sum_{i=1}^{n} P(x_i) \log_2P(x_i)$
为什么要加负号
加负号的意思是信息量要取概率的负对数，因为信息量的定义是概率的倒数的对数。一件事发生的概率在0-1之间，取对数后小于零，概率的倒数的对数才能大于零；同时根据之前说的为了使概率越大，信息量越小，取了倒数才能体现这种关联，也就是对数前加负号。
为什么log底数为2
理论上熵中的对数函数可以采用任何底数，通常遵循信息论的普遍传统，使用2作为对数的底。
信息熵公式中的底数2是由信息论的创始人香农（Claude Shannon）引入的，他在1948年发表的论文《通信的数学原理》中使用了这个底数。这是基于两个主要原因：
1.在二进制系统中，信息的单位是比特（bit），表示一位信息的传输或存储。因此，使用底数2可以更准确地表示信息的单位。
2.底数2的信息熵具有一些重要的数学性质，例如当所有事件的概率相等时，信息熵最大，对数函数的导数形式简单等。这些性质使得基于底数2的信息熵在信息论和通信领域得到了广泛的应用。