条件熵➡️信息增益

导航犬乖乖

已于 2023-11-27 20:30:59 修改

阅读量821

点赞数 23

分类专栏：机器学习的学习笔记文章标签：决策树机器学习

于 2023-11-27 20:18:04 首次发布

本文链接：https://blog.csdn.net/qq_43678337/article/details/134627211

版权

机器学习的学习笔记专栏收录该内容

2 篇文章 1 订阅

订阅专栏

写在前面

创作目的？

在工作中仍能保持学习的热情，把学习成果总结、分享、沉淀下来。

如果对内容有疑惑、发现有错误？

希望在评论区提出，我会及时回复。

希望引用？

若不以盈利为目的，尽情引用；否则请注明出处。

信息➡️信息量➡️信息熵➡️条件熵➡️信息增益

关于该路径的学习成果总结在以下两篇博客：

1. 信息➡️信息量➡️信息熵-CSDN博客

2.（本篇）条件熵➡️信息增益-CSDN博客

上一篇博客《信息➡️信息量➡️信息熵》中介绍了信息是什么、如何量化信息量、如何衡量随机事件的不确定性（用确定随机事件发生结果需要获得的期望信息量表示）三个问题，链接如下：信息、信息量、信息熵-CSDN博客文章浏览阅读366次，点赞7次，收藏9次。随机事件每次发生结果具有不确定性，信息是消除这种不确定性的东西；我们用信息对应事件的发生概率来衡量信息量，描述为函数函数，底数的不同取值代表了信息量的不同单位。为了衡量随机事件的不确定性，我们用信息熵衡量确定随机事件每次发生结果所需要的期望信息量，描述为函数。https://blog.csdn.net/qq_43678337/article/details/134620057?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22134620057%22%2C%22source%22%3A%22qq_43678337%22%7D

随机事件从随机性、不确定性两方面界定，我们尝试了去描述随机事件X、Y的随机性（概率）和不确定性（信息熵）。这篇博客将承接上文，对条件熵、信息增益等概念进行介绍。

非独立事件

我们先回忆一下上篇博客中的例子，在一个不透明箱子里有8颗颜色不同、其他性质完全相同的小球，颜色分别为绿、蓝、红、黄，各颜色对应小球数量分别为4、2、1、1。

随机事件X为小明从这个箱子里随机取出一个小球的颜色。经过上篇博客的学习我们很容易去描述随机事件X的随机性和不确定性：

在随机性方面，容易计算，随机事件X的概率分布为

在不确定性方面，由信息熵公式 $H(X)=\sum_{i=1}^{n}p_i log_2 p_i$ 可计算随机事件X的信息熵为 $H(X)=\frac{1}{2}\cdot 1+\frac{1}{4}\cdot 2+\frac{1}{8}\cdot 3+\frac{1}{8}\cdot 3=1.75$ 比特。

现在定义一个新的随机事件Y：小明随机选取小球后不放回，小红再从箱子里随机取出一个小球，此小球的颜色。

我们知道，随机事件Y的发生受到随机事件X的发生的影响，概率论中将相互之间彼此依赖、影响的事件称为非独立事件。

非独立事件不确定性的描述——条件熵

在随机性方面，我们通过计算联合事件 $(X,Y)$ 的联合概率分布：

由于CSDN博客公式中不便添加汉字，分别用‘g’、‘b’、‘r’、‘y’代替“绿”、“蓝”、“红”、“黄”。例如，随机事件Y发生结果为绿色的概率 $P(Y=g)= \frac{12}{56}+ \frac{8}{56}+ \frac{4}{56}+ \frac{4}{56}= \frac{28}{56}= \frac{1}{2}$ 。

同理能推出随机事件Y的概率分布：

确定概率分布后，自然也能算出在不确定性方面，随机事件Y的信息熵为 $H(Y)=\frac{1}{2}\cdot 1+\frac{1}{4}\cdot 2+\frac{1}{8}\cdot 3+\frac{1}{8}\cdot 3=1.75$ 比特。

我们发现，脱离了随机事件X，仅描述随机事件Y的随机性和不确定性，得到了与随机事件X同样的结果。我们自然产生思考，既然随机事件Y的发生结果受到随机事件X的直接影响，对于随机事件Y随机性、不确定性的描述，能否尝试不脱离随机事件X去进行呢？

在随机性方面，概率论中已有相应的延伸概念：条件概率。条件概率 $P(Y=y_i|X=x_j)$ 表示随机事件X发生 $x_j$ 的条件下，随机事件Y发生 $y_i$ 的概率，可以推出 $P(Y=y_i|X=x_j)=\frac{P(X=x_j , Y=y_i)}{P(X=x_j)}$ 。可以算得随机事件Y关于随机事件X的条件概率分布：

在不确定性方面，在随机事件X发生结果确定的情况下，我们很容易计算随机事件Y的不确定性，有：
随机事件X发生结果为绿色，随机事件Y的不确定性表示为 $H(Y|X=g)=-\frac{3}{7}\cdot log_2\frac{3}{7}-\frac{2}{7}\cdot log_2\frac{2}{7}-\frac{1}{7}\cdot log_2\frac{1}{7}-\frac{1}{7}\cdot log_2\frac{1}{7}$ 比特；
随机事件X发生结果为蓝色，随机事件Y的不确定性表示为 $H(Y|X=b)=-\frac{4}{7}\cdot log_2\frac{4}{7}-\frac{1}{7}\cdot log_2\frac{1}{7}-\frac{1}{7}\cdot log_2\frac{1}{7}-\frac{1}{7}\cdot log_2\frac{1}{7}$ 比特；
随机事件X发生结果为红色，随机事件Y的不确定性表示为 $H(Y|X=r)=-\frac{4}{7}\cdot log_2\frac{4}{7}-\frac{2}{7}\cdot log_2\frac{2}{7}-\frac{1}{7}\cdot log_2\frac{1}{7}$ 比特；
随机事件X发生结果为黄色，随机事件Y的不确定性表示为 $H(Y|X=y)=-\frac{4}{7}\cdot log_2\frac{4}{7}-\frac{2}{7}\cdot log_2\frac{2}{7}-\frac{1}{7}\cdot log_2\frac{1}{7}$ 比特。
结合随机事件X不同结果发生的概率，汇总得随机事件X发生结果确定的情况下，随机事件Y的不确定性表示为：

上式 $H(Y|X)\approx 1.68$ 比特，小于 $H(Y)=1.75$ 比特。

经过上述分析，我们心里肯定有两个疑问：
一是 $H(Y|X)$ 代表了什么含义？
二是我们该如何理解 $H(Y)$ 到 $H(Y|X)$ 这种变化呢？

信息熵和信息增益

我们先看第一个问题， $H(Y|X)$ 实际代表的含义是什么： $H(Y)$ 表示确定随机事件Y的发生结果所需要的期望信息量， $H(Y|X)$ 表示在随机事件X的发生结果已知的条件下确定随机事件Y的发生结果所需要的期望信息量。 $H(Y)$ 描述了随机事件Y的不确定性，自然，条件熵 $H(Y|X)$ 描述的是在已知随机变量X的条件下随机变量Y的不确定性。

回过头看我们的推导出条件熵过程：（1）首先计算出随机事件Y关于随机事件X的条件概率分布；（2）其次结合条件概率分布和信息熵计算公式，计算随机事件Y在随机事件X不同发生结果的条件下的不确定性，（3）最后结合随机事件X不同结果的发生概率计算出条件熵。

结合上述内容可倒推条件熵的计算公式如下：

当明确了条件熵的定义、意义和计算方式，我们自然定位到了从 $H(Y)$ 到 $H(Y|X)$ 变化产生的根源：条件——随机事件X的发生结果已知。

先抛弃所有的定语，信息熵 $H(Y)$ 和条件熵 $H(Y|X)$ 都描述了随机事件Y的不确定性，正是计算条件熵 $H(Y|X)$ 时我们已经知道了随机事件X的发生结果，不确定性减少了，所以有 $H(Y|X)<H(Y)$ 。

既然得知随机事件X的发生结果降低了随机事件Y的不确定性程度，我们就会产生一个问题，这种影响效果有多大？这个问题也很好回答，随机事件Y的不确定程度降低了多少，这种效果就有多大。

我们现在就能来定义信息增益（information gain），它表示得知随机事件X的信息使随机事件Y的不确定性减少程度，有 $gain(Y,X)=H(Y)-H(Y|X)$ 。

总结

概率论中用条件概率描述非独立事件受其他事件影响下的概率分布，同样地，条件熵描述了在已知其他随机事件结果的条件下非独立事件的不确定性；
“已知其他随机事件结果”这一条件降低了非独立事件的不确定性，我们用信息增益来描述这一影响的影响程度。

导航犬乖乖

关注

23
点赞
踩
21

收藏

觉得还不错? 一键收藏
打赏
0
评论
条件熵➡️信息增益

概率论中用条件概率描述非独立事件受其他事件影响下的概率分布，同样地，条件熵描述了在已知其他随机事件结果的条件下非独立事件的不确定性；“已知其他随机事件结果”这一条件降低了非独立事件的不确定性，我们用信息增益来描述这一影响的影响程度。
复制链接

扫一扫