信息➡️信息量➡️信息熵

导航犬乖乖

已于 2023-11-27 20:21:58 修改

阅读量925

点赞数 22

分类专栏：机器学习的学习笔记文章标签：决策树机器学习

于 2023-11-25 21:44:26 首次发布

本文链接：https://blog.csdn.net/qq_43678337/article/details/134620057

版权

机器学习的学习笔记专栏收录该内容

2 篇文章 1 订阅

订阅专栏

写在前面

创作目的？

在工作中仍能保持学习的热情，把学习成果总结、分享、沉淀下来。

如果对内容有疑惑、发现有错误？

希望在评论区提出，我会及时回复。

希望引用？

若不以盈利为目的，尽情引用；否则请注明出处。

信息➡️信息量➡️信息熵➡️条件熵➡️信息增益

关于该路径的学习成果总结在以下两篇博客：

1. （本篇）信息➡️信息量➡️信息熵-CSDN博客

2. 条件熵➡️信息增益-CSDN博客

信息与不确定性

统计学将随机事件定义为“在随机试验中可能出现也可能不出现，而在大量重复试验中具有某种规律性的事件”，这个定义包含两个方面：
1. 随机事件每一次的发生，其结果具有不确定性；
2. 随机事件发生足够多次，其结果表现出规律性。
统计学把第2个方面提到的“规律性”描述为随机事件的“随机性”，并提出了“概率”这一概念来刻画随机性。

举个简单的例子，在一个不透明箱子里有8颗颜色不同、其他性质完全相同的小球，颜色分别为绿、蓝、红、黄，各颜色对应小球数量分别为4、2、1、1。
当小明从这个箱子里随机取出一个小球时，会有四种可能发生的事件：
事件A：小明取出了绿色小球。
事件B：小明取出了蓝色小球。
事件C：小明取出了红色小球。
事件D：小明取出了黄色小球。
事件A、B、C、D发生的概率分别为50%、25%、12.5%、12.5%。

但是，在小明取出小球后至我们得知到它的颜色的这段时间，我们并不确定小明会取出什么颜色的小球。也就是说，我们能用概率来描述随机事件的随机性，可在每次随机事件发生后会出现什么结果我们并不能确定，这种不确定性始终存在。

我们希望消除这种不确定性，了解此次随机事件发生的结果，那我们就需要获取与该次随机事件的结果相关的“信息”。

回到取小球的例子，我们向已经得知此次取球结果的甲、乙、丙三人求助，分别得到这样的回复：
甲：我不告诉你。
乙：反正肯定不是绿球。
丙：取出了蓝球。

甲的回复没有帮助我们消除不确定性，我们评价甲的回复没有信息量，乙、丙的回复都在某种程度上帮助我们消除了不确定性，他们的回复都包含“信息”。我们可以认识到：信息就是能消除不确定性的东西。

既然信息帮助我们消除不确定性，我们肯定希望获得尽可能多的信息。但是，当需要从多条信息选择若干条时，我们如何进行选择呢？

选择就必然要确定一个评选标准，然后计算各信息在该评选标准下的得分，相互比较后选择最优。简单来说，就是要度量信息。

怎样度量信息

再次回到取球的例子，如果我们想确定小明取出球的颜色，但我们仅能获得甲、乙、丙三人回复中的一条，我们该如何抉择呢？

由于现在我们尚未了解信息的度量，我们会从概率的角度出发进行抉择：
当我们没有获得任何信息时，我们猜到小明这次取出球的颜色的概率是25%；
当我们选择获得甲提供的信息，甲的回复没有信息量，我们猜到小明这次取出球的颜色（即蓝色）的概率仍是25%；
当我们选择获得乙提供的信息，乙的回复对应事件（小明取出小球颜色不是绿色）的发生概率是50%，该条回复对我们的猜测有帮助，我们猜到小明这次取出球的颜色的概率是50%；
当我们选择获得丙提供的信息，丙的回复对应事件（小明取出蓝色小球）的发生概率是25%，该条回复很有帮助，我们猜到小明这次取出球的颜色的概率是100%。
很容易比较得出100%>50%>25%，我们希望猜到正确颜色的概率更大一点，因此我们对于这三条回复的选择顺序为丙、乙、甲。

我们很容易感受到：一条信息包含的信息量和该条信息对应事件的发生概率的大小有关系。如果一个事件发生概率很小但实际发生了，那么这个事件会给我们带来较大的信息量；如果一个事件发生概率很大且实际发生了，那么这个事件并没有太多信息量。

因此我们用信息对应事件的发生概率去衡量信息的信息量。假设某条信息对应事件的发生概率为 $p$ ，我们用函数 $f(p)$ 来表示该信息所包含的信息量。
我们很容易推断出如下的性质：
性质1 非负性： $f(p)\geq 0$ ；
性质2 单调性： $f(p)$ 关于 $p$ 单调递减。

根据这两条性质，我们似乎可以借助所有值域不为负的单调减函数来描述 $f(p)$ ，这个范围太大了，我们需要进一步去挖掘 $f(p)$ 具有的性质以缩小可用函数范围。

我们发现，当两个相同的随机事件X、Y相互独立时，有两条信息，信息1和信息2分别与X、Y一次发生结果相关，信息1和信息2对应的事件发生的概率分别为 $p_1$ 、 $p_2$ ，包含的信息量分别为 $f(p_1)$ 、 $f(p_2)$ 。当我们同时获得这两条信息，则我们获得了信息量 $f(p_1)+f(p_2)$ 。

将这两个随机事件组合为一个随机事件，为X + Y，当我们同时获得信息1和信息2时，因为随机事件X、Y相互独立，信息1和信息2对应的事件同时发生的概率为 $p_1\cdot p_2$ ，即获得了信息量为 $f(p_1\cdot p_2)$ 。

信息1和信息2的信息量是没有变化的，因此我们又得到了关于 $f(p)$ 的一条重要性质：
性质3 累加性： $f(p_1\cdot p_2) = f(p_1)+f(p_2)$ 。

受限于数学水平，本人并不能从数学上严格推出 $f(p)$ 的形式，在此引用一篇关于从三条性质推出 $f(p)$ 的数学形式的优质回答，推荐有相关需求的读者阅读该回答：

No.1 信息量(自信息,Self-information)为什么采用对数表示？ - 知乎0.概念及符号说明本文中“信息量”与“自信息”表示同一概念，对应英文中的概念Self-information，将根据语境选择合适表述。本文中涉及符号的意义约定如下： \begin{array}{c|c} \text{符号} & \text{值域} &…https://zhuanlan.zhihu.com/p/592051957?utm_id=0

因此，我们得到了信息量函数的基本形式 $f(p)=Klog_a p$ ，由于 $f(p)$ 关于 $p$ 单调递减，且事件的概率 $0 \leq p \leq 1$ ，可知 $K<0$ 且 $a>1$ 。 $K$ 的大小并不影响不同信息之间信息量大小的比较，因此简化 $K=-1$ 。现在我们确定了描述信息包含信息量的函数： $f(p)=-log_a p$ ，其中 $a>1$ ， $p$ 表示该条信息对应事件的发生概率。

目前来看，我们给底数 $a$ 赋值为任意大于1的正数都是可行的，只要我们计算出不同信息对应事件的概率，都能定量比较这些信息的信息量大小。

我们并不满足于此，我们希望信息量能像质量一样，有3两白酒、1斤葡萄、2千克猪肉等更容易直观感受、方便计算、简易比较的表述，即给信息量规范几个单位。

现代计算机使用二进制表示数字和字符，即由0和1构成所有信息，我们自然会想到用一位数字所表示的信息量来作为信息量的基本单位，信息论中把“0”或“1”表示的信息量称为1比特（bit, binary unit），“0”或者“1”的概率相同，均为1/2，即 $f(p)=-log_a \frac{1}{2}=1$ bit，可以计算出 $a=2$ 。

此外自然对数 $e$ 和常数10也常作为底数，此时信息量函数计算的结果具有不同的单位，现整理如下表。

现在回到取球的例子，我们再看甲、乙、丙三人的回复：
甲：我不告诉你。
乙：反正肯定不是绿球。
丙：取出了蓝球。
很容易计算：
甲的回复的信息量为 $-log_2 1=0$ 比特；
乙的回复的信息量为 $-log_2 \frac{1}{2}=1$ 比特；
丙的回复的信息量为 $-log_2 \frac{1}{4}=2$ 比特；
2>1>0，因此我们对于这三条回复的选择顺序为丙、乙、甲。

我们现在解决了“怎样度量信息”这个问题，从信息的角度出发，用函数 $f(p)=-log_a p$ 量化了信息包含的信息量。

那从随机事件的角度去看，需要获得多少信息，我们才能确定随机事件发生的结果呢？即如何利用信息量来衡量随机事件的不确定性呢？

随机事件与信息

还是看取球的例子，当小明放回所取出的球，小红又来取出一个球，可以发现：
如果小红取出绿球，我们要获得 $-log_2 \frac{1}{2}=1$ 比特的信息才能得知小红所取球的颜色。
如果小红取出蓝球，我们要获得 $-log_2 \frac{1}{4}=2$ 比特的信息才能得知小红所取球的颜色。
如果小红取出红球，我们要获得 $-log_2 \frac{1}{8}=3$ 比特的信息才能得知小红所取球的颜色。
如果小红取出黄球，我们要获得 $-log_2 \frac{1}{8}=3$ 比特的信息才能得知小红所取球的颜色。

因此，我们需要获得信息量的期望为 $\frac{1}{2}\cdot 1+\frac{1}{4}\cdot 2+\frac{1}{8}\cdot 3+\frac{1}{8}\cdot 3=1.75$ 比特。

对于随机事件，要想明确该随机事件每一次的发生结果，我们总能计算出所需获得的信息量的期望值，这个值衡量了随机事件的不确定性程度，我们把它成为随机事件的信息熵。

假设随机事件 $X$ 有 $n$ 种结果，发生概率分别为 $p_1, p_2,...,p_n$ ，该随机事件的信息熵的计算公式为 $H(X)= \sum_{i=1}^{n} p_i f(p_i)=-\sum_{i=1}^{n} p_i log_a p_i$ ，以比特为单位，信息熵的计算公式为 $H(X)= -\sum_{i=1}^{n} p_i log_2 p_i$ 。

总结

随机事件每次发生结果具有不确定性，信息是消除这种不确定性的东西；
我们用信息对应事件的发生概率来衡量信息量，描述为函数函数 $f(p)=-log_a p$ ，底数的不同取值代表了信息量的不同单位；
为了衡量随机事件的不确定性，我们用信息熵衡量确定随机事件每次发生结果所需要的期望信息量，描述为函数 $H(X)= -\sum_{i=1}^{n} p_i log_a p_i$ 。

导航犬乖乖

关注

22
点赞
踩
17

收藏

觉得还不错? 一键收藏
打赏
0
评论
信息➡️信息量➡️信息熵

随机事件每次发生结果具有不确定性，信息是消除这种不确定性的东西；我们用信息对应事件的发生概率来衡量信息量，信息量函数底数的不同取值代表了信息量的不同单位。为了衡量随机事件的不确定性，我们用信息熵衡量确定随机事件每次发生结果所需要的期望信息量。
复制链接

扫一扫