信息论基本概念-自信息、互信息、信息熵、信道容量

最新推荐文章于 2024-12-27 19:48:31 发布

置顶寂小小寞

最新推荐文章于 2024-12-27 19:48:31 发布

阅读量3.3k

点赞数 3

分类专栏：无线信道编码

本文链接：https://blog.csdn.net/u010658002/article/details/124515599

版权

无线信道编码专栏收录该内容

3 篇文章

订阅专栏

本文深入解析了Polar码中的关键信息论概念，如自信息衡量事件不确定性，联合自信息与条件自信息揭示事件关联，互信息表示信息传递的相关性，以及信息熵和信道容量在通信中的作用。理解这些概念有助于进一步研究Polar码的编码效率和纠错性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文主要介绍和Polar码相关的信息论一些基本概念，包括自信息、互信息、信息熵和信道容量；便于后续对Polar码的介绍与研究。

自信息

事件集合X中的事件 $x=a_{i}$ 的自信息定义为 $I_{x}(a_{i})=-logP_{x}(a_{i})$ 可以简单标记为 $I(x)=-log\, p(x)$ 对于上述定义，有 $a_{i} \in X$ ，且有 $\sum_{i=1}^{n}P_{X}(a_{i})=1,0\leq P_{X}(a_{i})\leq 1$ ；对于自信息的单位，若上述对数是以2为底，则单位为比特（bit）；若是以10为底，则单位为迪特（Dit）或者哈特（Hart）。
对于一个事件，当它发生的概率越低时，它所包含的信息量就越大，这个与我们的直观感觉是相吻合的，比如一个班级内上个学期考倒数第一的同学，这个学期突然考了第一名，这件事情发生的概率是比较低的，因此当它发生后会给我们带来很大的惊讶，即这件事情包含的信息量是比较大的，很可能是一个“爆炸性新闻”。

联合自信息

联合事件集合XY中的事件 $x=a_{i}$ ， $y=b_{j}$ 包含的联合自信息定义为
$I_{XY}(a_{i}, b_{j})=-log\, P_{XY}(a_{i}, b_{j})$ 可以简记为 $I(xy)=-log\, p(xy)$ 其中 $p (x y)$ 满足非负性和归一化条件。

条件自信息

给定联合事件集XY，事件 $x=a_{i}$ 在事件 $y=b_{j}$ 给定条件下的条件自信息定义为 $I_{X/Y}(a_{i}|b_{j})=-log\, P_{X/Y}(a_{i}|b_{j})$ 可以简记为 $I(x|y)=-log\, p(x|y)$ 其中 $p (x ∣ y)$ 表示在事件y发生前提下事件x发生的条件概率；并且自信息、联合自信息和条件自信息之间的关系如下 $I (x y) = I (x) + I (y ∣ x) = I (y) + I (x ∣ y)$ 上述这个式子可以从条件概率的公式出发简单证明一下，条件概率的定义为 $p (x ∣ y) = p (x y) / p (y)$ 则有 $p (x y) = p (x ∣ y) * p (y)$ 对两边同时取对数有并同乘负号有 $-log\,p(xy)=-log(p(x|y))-log(p(y))$ 即可得证上式。

互信息

设两个事件集合X和Y，其中事件 $x\in X$ ，事件 $y\in Y$ 。由于特定的限制，我们通过观察y来获取对x的信息。离散随机事件 $x=a_{i}$ 和 $y=b_{j}$ 之间的互信息（ $x\in X,y\in Y$ ）定义为 $I_{X;Y}(a_{i};b_{j})=log\frac{P_{X|Y}(a_{i}|b_{j})}{P_{X}(a_{i})}$ 可以简记为 $I(x;y)=log\frac{p(x|y)}{p(x)}=log\frac{p(y|x)}{p(x)}=log\frac{p(xy)}{p(x)p(y)}$ 通过计算可得 $I (x; y) = I (x) - I (x ∣ y)$ 互信息反映了两个随机事件x和y之间的相关性，当x和y统计独立时，则互信息为0。在通信系统中，当收端接收到信号y后，获取的关于发端信号x的信息量；为了能够通过y准确的估计x，这种关联性肯定越大越好。Polar编码在某种程度上也是利用这一特性进行编码，改善x和y之间的相关性，从而提高信息传输的可靠性。

条件互信息

设联合事件集XYZ，在给定 $z\in Z$ 条件下， $x\in X$ 和 $y\in Y$ 之间的条件互信息定义为 $I(x;y|z)=log\frac{p(x|yz)}{p(x|z)}$

信息熵

       离散随机变量X（随机变量可以理解为事件集合中某一或者某些事件的发生）的熵定义为自信息的平均值 $H(X)=-\sum_{x}p(x)log\,p(x)$        其中X的概率分布可写成矢量形式，称为概率矢量，记为 $\mathbf{p}=(p_{1},p_{2},...,p_{n})$ ，则X的熵可简记为 $H(x)=H(\mathbf{p})=H(p_{1},p_{2},...,p_{n})$        前边介绍过，自信息表示某一随机事件发生的不确定性的度量，而信息熵则表示在概率平均意义上随机变量整体不确定性的度量，其具体含义还可表现在以下几个方面
       1）在事件发生前，表示随机变量取值的平均不确定性
       2）在事件发生后，其不确定性就被解除，熵就是解除随机变量不确定平均所需要的信息量。

联合熵

联合熵用于多维随机矢量的信息度量。设N维随机矢量 $\mathbf{X}^{N}=(X_{1},X_{2},...,X_{N})$ ，取值为 $\mathbf{x}=(x_{1}, x_{2},...,x_{n})$ ，联合熵的定义为联合自信息的概率平均值 $H(\mathbf{X}^{N})=H(X_{1}X_{2}...X_{N})=-\sum_{x}p(\mathbf{x})*log\,p(\mathbf{x})$ 其中 $p(\mathbf{x})$ 为矢量 $\mathbf{x}$ 的联合概率。对于二维随机矢量 $\mathbf{XY}$ ，联合熵表示为 $H(\mathbf{XY})=-\sum_{x}\sum_{y}p(xy)log\,(p(xy))$

条件熵

考虑多维矢量的情况，设N维随机矢量 $\mathbf{X}^{N}=(X_{1}X_{2}...X_{N})$ 和M维随机矢量 $\mathbf{Y}^{M}=(Y_{1}Y_{2}...Y_{M})$ ，其中 $\mathbf{x}=(x_{1}, x_{2}, ..., x_{N})$ 和 $\mathbf{y}=(y_{1},y_{2},...,y_{M})$ ，联合集 $\mathbf{X}^{N}\mathbf{Y}^{M}$ 上，条件熵定义为 $H(\mathbf{Y^{M}|X^{N}})=-\sum_{\mathbf{xy}}p(\mathbf{xy})log\,p(\mathbf{y|x})$ 回归到二维随机矢量 $\mathbf{XY}$ 的情况，条件熵定义为条件自信息的概率平均值 $H(Y|X)=-\sum_{x}\sum_{y}p(xy)log\,p(y|x)$ 熵与条件熵的关系可表示为 $H(\mathbf{Y|X})\leqslant H(\mathbf{X})$ 这就是著名的熵不增原理，即条件熵永远不会大于随机变量自己的信息熵。

平均互信息

离散随机变量 $\mathbf{X,Y}$ 之间的平均互信息定义为 $I(\mathbf{X;Y})=\sum_{x}p(x)\sum_{y}p(y|x)log\,\frac{p(y|x)}{p(y)}=\sum_{xy}p(x)p(y|x)log \frac{p(y|x)}{\sum_{x}p(x)p(y|x)}$ 平均互信息其实就是在互信息 $I (x; y)$ 在概率空间 $\mathbf{XY}$ 中求统计平均的结果，是从整体上表示一个随机变量 $\mathbf{Y}$ 提供的关于另一个随机变量 $\mathbf{X}$ 的信息量。
平均互信息和熵之间的关系有 $I(\mathbf{X;Y})=H(X)-H(X|Y)$ $I(\mathbf{X;Y})=H(Y)-H(Y|X)$ $I (X; Y) = H (X) + H (Y) - H (X Y)$ 从通信的角度理解，建立一个简单的信道模型 $\mathbf{Y=HX}$ 其中 $\mathbf{X}$ 为发送信号； $\mathbf{Y}$ 为接收信号； $\mathbf{H}$ 为无线信道。 $H(\mathbf{X})$ 表示发送信号 $\mathbf{X}$ 的整体不确定度； $H(\mathbf{X|Y})$ 表示接收信号 $\mathbf{Y}$ 中关于 $\mathbf{X}$ 不确定度，则平均互信息即为两者之差，表示关于 $\mathbf{X}$ 的不确定度的变化，即通过 $\mathbf{Y}$ 可获取到的关于 $\mathbf{X}$ 的信息量，我们肯定希望从 $\mathbf{Y}$ 中获取到的关于 $\mathbf{X}$ 的信息量越多越好，这样更有助于我们完成对 $\mathbf{X}$ 的估计。

信道容量

此处我们只讨论确定性信道的信道容量，确定性信道的容量被定义为 $C=\underset{f(x)}{max}I(\mathbf{x;y})$ 其中 $f (x)$ 表示发射信号向量 $\mathbf{X}$ 的PDF（概率密度函数）； $I(\mathbf{x;y})$ 表示随机变量 $\mathbf{X}$ 和 $\mathbf{Y}$ 之间的互信息；此确定性信道的容量定义为平均互信息的最大值。上述关于信道容量的定义，我们可以从两个方面理解：第一，当信道确定时，它对应的信道容量也已经确定，且与发送信号 $\mathbf{X}$ 的分布无关；第二，当信道的容量是否能达到理论值与发送信号 $\mathbf{X}$ 的分布有关，即存在满许某种概率分布的发送信号 $\mathbf{X}$ ，使得当前信道的实际容量能达到该信道的理论信道容量。
在进行polar编码时，我们就是通过子信道的信道容量来判断它的“好”“坏”。将信息传输在“好”的子信道上，我们可以从接收信号Y中获取到更多关于发送信号X的信息量，从而更好的抵抗无线信道对于传输X的不利影响，更大概率的正确还原X。