条件熵和信息熵

清风吹我襟~

已于 2024-07-24 17:04:36 修改

阅读量519

点赞数 10

文章标签：信息与通信

于 2024-07-24 17:03:56 首次发布

本文链接：https://blog.csdn.net/liuhaijin1/article/details/140667806

版权

条件熵

了解信息熵之前补充一些离散数学的知识:

数学期望

信息熵

先给出信息熵的公式:
$H(x)=-\sum\limits_{i=1}^{n}p(x_i)log(p(x_i))$
其中: $p(x_i)$ 代表随机概率事件 $x_i$ 的概率,
下面我们来逐步分析:

首先了解一下信息量: 信息量是对信息的度量,是对信息的一种量化指标,如是时间的量化为s,长度的量化为m,质量的量化为kg等。当我们考虑一个离散的随机变量 $x$ 的时候,当我们观察到这个变量的一个具体值的时候,我们接受到了多少信息呢?

信息的多少由信息量来衡量,我们接受到的信息量跟具体发生的事件有关.

不难理解,信息量的大小跟事件随机概率有关,越小的概率所包含的信息量越大,如海啸地震,核弹爆发,这种都是小概率事件,却蕴含着巨大的信息,而日常的晴天阴天,太阳每天东升西落,习以为常的事件自然蕴含的信息量就小。

如果是两个独立的事件 $a$ 和 $b$ ,那么同时发生的获得的信息量应该是各自发生时获得的信息之和,即: $h (a, b) = h (a) + h (b)$ ,
由于两个独立的事件 $a$ 和 $b$ 满足 $p (a, b) = p (a) * p (b)$
根据上面推导,很容易看出 $h (x)$ 一定是关于 $p (x)$ 的对数关系,我们可以试着构造一个函数 $h(x)=-log_2p(x)$ ,前面的负号是干啥的?因为 $p(x)\in[0,1]$ ,为确保 $h (x) > 0$

下面正式引出信息熵: 信息量度量的是一个具体事件发生所带来的信息,而熵则是在结果出来之前可能产生的信息量的期望——考虑改随机变量的所有可能取值，即所有可能发生事件所带来的信息量的期望。即
$H(x)=-\sum\limits_{i=1}^{n}p(x_i)log(p(x_i))$
信息熵还可以作为一个系统复杂程度的度量，如果系统越复杂，出现不同情况的种类越多，那么他的信息熵是比较大的。如果一个系统越简单，出现情况种类很少（极端情况为一种情况，那么对应的概率为1，因此对应的信息熵为0），此时的信息熵较小。

互信息

在概率论和信息论中,两个随机变量的互信息(mutual Information ,MI)度量了两个变量之间互相依赖的程度。

互信息

互信息的定义

设随机变量 $(X,Y)$ 是空间 ${\mathcal {X}}\times {\mathcal {Y}}$ 中的一对随机变量。若他们的联合分布是 $p(x,y)$ ，边缘分布分别是 $p(x)$ $和$ $p(y)$ ，那么，它们之间的互信息可以定义为：

$I(X;Y)=D_{\mathrm {KL} }(p(x,y)\|p(x)\otimes p(y))$

其中， $D_{\mathrm {KL} }$ 为KL散度(Kullback–Leibler divergence)。注意，根据KL散度的性质，若联合分布 $p (x, y)$ 等于边缘分布 $p (x)$ 和 $p (y)$ 的乘积，则 $I (X; Y) = 0$ ，即当 $X$ 和 $Y$ 相互独立的时候，观测到Y对于我们预测X没有任何帮助，此时他们的互信息为0。

离散变量的互信息

离散随机变量 X 和 Y 的互信息可以计算为：

$\sum_{y \in Y} \sum_{x \in X} p(x,y) \log{ \left(\frac{p(x,y)}{p(x)\,p(y)} \right) }, \,\!$

其中 $p (x, y)$ 是 $X$ 和 $Y$ 的联合概率质量函数，而 $p (x)$ 和 $p (y)$ 分别是 $X$ 和 $Y$ 的边缘概率质量函数。

连续变量的互信息

在连续随机变量的情形下，求和被替换成了二重定积分：

$\int_Y \int_X p(x,y) \log{ \left(\frac{p(x,y)}{p(x)\,p(y)} \right) } \; dx \,dy,$

其中 $p (x, y)$ 当前是 $X$ 和 $Y$ 的联合概率’‘密度’'函数，而 $p (x)$ 和 $p (y)$ 分别是 $X$ 和 $Y$ 的边缘概率密度函数。

如果对数以 2 为基底，互信息的单位是bit。

直观上，互信息度量 $X$ 和 $Y$ 共享的信息：它度量知道这两个变量其中一个，对另一个不确定度减少的程度。例如，如果 $X$ 和 $Y$ 相互独立，则知道 $X$ 不对 $Y$ 提供任何信息，反之亦然，所以它们的互信息为零。在另一个极端，如果 $X$ 是 $Y$ 的一个确定性函数，且 $Y$ 也是 $X$ 的一个确定性函数，那么传递的所有信息被 $X$ 和 $Y$ 共享：知道 $X$ 决定 $Y$ 的值，反之亦然。因此，在此情形互信息与 $Y$ （或 $X$ ）单独包含的不确定度相同，称作 $Y$ （或 $X$ ）的熵。而且，这个互信息与 $X$ 的熵和 $Y$ 的熵相同。（这种情形的一个非常特殊的情况是当 $X$ 和 $Y$ 为相同随机变量时。）

互信息是 $X$ 和 $Y$ 的联合分布相对于假定 $X$ 和 $Y$ 独立情况下的联合分布之间的内在依赖性。
于是互信息以下面方式度量依赖性：‘‘I’’( $X$ ; $Y$ ) = 0 当且仅当 $X$ 和 $Y$ 为独立随机变量。从一个方向很容易看出：当 $X$ 和 $Y$ 独立时， $P (X, Y) = p (X) p (Y)$ ，因此：

$\log{ \left( \frac{p(x,y)}{p(x)\,p(y)} \right) } = \log 1 = 0. \,\!$

此外，互信息是非负的（即 $I(X;Y)\ge0$ ; 见下文），而且是对称的（即 $I (X; Y) = I (Y; X)$ ）。

清风吹我襟~

关注

10
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
条件熵和信息熵

设随机变量XYXY是空间X×YX×Y中的一对随机变量。若他们的联合分布是pxypxy，边缘分布分别是pxpx和和和pypyIX;YDKLpxy∥px⊗py))其中，DKLDKL为KL散度(Kullback–Leibler divergence)。注意，根据KL散度的性质，若联合分布pxyp(x,y)pxy等于边缘分布pxp(x)
复制链接

扫一扫