信息论基本概念-自信息、互信息、信息熵、信道容量

       本文主要介绍和Polar码相关的信息论一些基本概念,包括自信息、互信息、信息熵和信道容量;便于后续对Polar码的介绍与研究。

自信息

       事件集合X中的事件 x = a i x=a_{i} x=ai的自信息定义为 I x ( a i ) = − l o g P x ( a i ) I_{x}(a_{i})=-logP_{x}(a_{i}) Ix(ai)=logPx(ai)       可以简单标记为 I ( x ) = − l o g   p ( x ) I(x)=-log\, p(x) I(x)=logp(x)       对于上述定义,有 a i ∈ X a_{i} \in X aiX,且有 ∑ i = 1 n P X ( a i ) = 1 , 0 ≤ P X ( a i ) ≤ 1 \sum_{i=1}^{n}P_{X}(a_{i})=1,0\leq P_{X}(a_{i})\leq 1 i=1nPX(ai)=1,0PX(ai)1;对于自信息的单位,若上述对数是以2为底,则单位为比特(bit);若是以10为底,则单位为迪特(Dit)或者哈特(Hart)。
       对于一个事件,当它发生的概率越低时,它所包含的信息量就越大,这个与我们的直观感觉是相吻合的,比如一个班级内上个学期考倒数第一的同学,这个学期突然考了第一名,这件事情发生的概率是比较低的,因此当它发生后会给我们带来很大的惊讶,即这件事情包含的信息量是比较大的,很可能是一个“爆炸性新闻”。

联合自信息

       联合事件集合XY中的事件 x = a i x=a_{i} x=ai y = b j y=b_{j} y=bj包含的联合自信息定义为
I X Y ( a i , b j ) = − l o g   P X Y ( a i , b j ) I_{XY}(a_{i}, b_{j})=-log\, P_{XY}(a_{i}, b_{j}) IXY(ai,bj)=logPXY(ai,bj)       可以简记为 I ( x y ) = − l o g   p ( x y ) I(xy)=-log\, p(xy) I(xy)=logp(xy)       其中 p ( x y ) p(xy) p(xy)满足非负性和归一化条件。

条件自信息

       给定联合事件集XY,事件 x = a i x=a_{i} x=ai在事件 y = b j y=b_{j} y=bj给定条件下的条件自信息定义为 I X / Y ( a i ∣ b j ) = − l o g   P X / Y ( a i ∣ b j ) I_{X/Y}(a_{i}|b_{j})=-log\, P_{X/Y}(a_{i}|b_{j}) IX/Y(aibj)=logPX/Y(aibj)       可以简记为 I ( x ∣ y ) = − l o g   p ( x ∣ y ) I(x|y)=-log\, p(x|y) I(xy)=logp(xy)       其中 p ( x ∣ y ) p(x|y) p(xy)表示在事件y发生前提下事件x发生的条件概率;并且自信息、联合自信息和条件自信息之间的关系如下 I ( x y ) = I ( x ) + I ( y ∣ x ) = I ( y ) + I ( x ∣ y ) I(xy)=I(x)+I(y|x)=I(y)+I(x|y) I(xy)=I(x)+I(yx)=I(y)+I(xy)       上述这个式子可以从条件概率的公式出发简单证明一下,条件概率的定义为 p ( x ∣ y ) = p ( x y ) / p ( y ) p(x|y)=p(xy)/p(y) p(xy)=p(xy)/p(y)       则有 p ( x y ) = p ( x ∣ y ) ∗ p ( y ) p(xy)=p(x|y)*p(y) p(xy)=p(xy)p(y)       对两边同时取对数有并同乘负号有 − l o g   p ( x y ) = − l o g ( p ( x ∣ y ) ) − l o g ( p ( y ) ) -log\,p(xy)=-log(p(x|y))-log(p(y)) logp(xy)=log(p(xy))log(p(y))       即可得证上式。

互信息

       设两个事件集合X和Y,其中事件 x ∈ X x\in X xX,事件 y ∈ Y y\in Y yY。由于特定的限制,我们通过观察y来获取对x的信息。离散随机事件 x = a i x=a_{i} x=ai y = b j y=b_{j} y=bj之间的互信息( x ∈ X , y ∈ Y x\in X,y\in Y xX,yY)定义为 I X ; Y ( a i ; b j ) = l o g P X ∣ Y ( a i ∣ b j ) P X ( a i ) I_{X;Y}(a_{i};b_{j})=log\frac{P_{X|Y}(a_{i}|b_{j})}{P_{X}(a_{i})} IX;Y(ai;bj)=logPX(ai)PXY(aibj)       可以简记为 I ( x ; y ) = l o g p ( x ∣ y ) p ( x ) = l o g p ( y ∣ x ) p ( x ) = l o g p ( x y ) p ( x ) p ( y ) I(x;y)=log\frac{p(x|y)}{p(x)}=log\frac{p(y|x)}{p(x)}=log\frac{p(xy)}{p(x)p(y)} I(x;y)=logp(x)p(xy)=logp(x)p(yx)=logp(x)p(y)p(xy)       通过计算可得 I ( x ; y ) = I ( x ) − I ( x ∣ y ) I(x;y)=I(x)-I(x|y) I(x;y)=I(x)I(xy)       互信息反映了两个随机事件x和y之间的相关性,当x和y统计独立时,则互信息为0。在通信系统中,当收端接收到信号y后,获取的关于发端信号x的信息量;为了能够通过y准确的估计x,这种关联性肯定越大越好。Polar编码在某种程度上也是利用这一特性进行编码,改善x和y之间的相关性,从而提高信息传输的可靠性。

条件互信息

       设联合事件集XYZ,在给定 z ∈ Z z\in Z zZ条件下, x ∈ X x\in X xX y ∈ Y y\in Y yY之间的条件互信息定义为 I ( x ; y ∣ z ) = l o g p ( x ∣ y z ) p ( x ∣ z ) I(x;y|z)=log\frac{p(x|yz)}{p(x|z)} I(x;yz)=logp(xz)p(xyz)

信息熵

       离散随机变量X(随机变量可以理解为事件集合中某一或者某些事件的发生)的熵定义为自信息的平均值 H ( X ) = − ∑ x p ( x ) l o g   p ( x ) H(X)=-\sum_{x}p(x)log\,p(x) H(X)=xp(x)logp(x)       其中X的概率分布可写成矢量形式,称为概率矢量,记为 p = ( p 1 , p 2 , . . . , p n ) \mathbf{p}=(p_{1},p_{2},...,p_{n}) p=(p1,p2,...,pn),则X的熵可简记为 H ( x ) = H ( p ) = H ( p 1 , p 2 , . . . , p n ) H(x)=H(\mathbf{p})=H(p_{1},p_{2},...,p_{n}) H(x)=H(p)=H(p1,p2,...,pn)       前边介绍过,自信息表示某一随机事件发生的不确定性的度量,而信息熵则表示在概率平均意义上随机变量整体不确定性的度量,其具体含义还可表现在以下几个方面
       1)在事件发生前,表示随机变量取值的平均不确定性
       2)在事件发生后,其不确定性就被解除,熵就是解除随机变量不确定平均所需要的信息量。

联合熵

       联合熵用于多维随机矢量的信息度量。设N维随机矢量 X N = ( X 1 , X 2 , . . . , X N ) \mathbf{X}^{N}=(X_{1},X_{2},...,X_{N}) XN=(X1,X2,...,XN),取值为 x = ( x 1 , x 2 , . . . , x n ) \mathbf{x}=(x_{1}, x_{2},...,x_{n}) x=(x1,x2,...,xn),联合熵的定义为联合自信息的概率平均值 H ( X N ) = H ( X 1 X 2 . . . X N ) = − ∑ x p ( x ) ∗ l o g   p ( x ) H(\mathbf{X}^{N})=H(X_{1}X_{2}...X_{N})=-\sum_{x}p(\mathbf{x})*log\,p(\mathbf{x}) H(XN)=H(X1X2...XN)=xp(x)logp(x)       其中 p ( x ) p(\mathbf{x}) p(x)为矢量 x \mathbf{x} x的联合概率。对于二维随机矢量 X Y \mathbf{XY} XY,联合熵表示为 H ( X Y ) = − ∑ x ∑ y p ( x y ) l o g   ( p ( x y ) ) H(\mathbf{XY})=-\sum_{x}\sum_{y}p(xy)log\,(p(xy)) H(XY)=xyp(xy)log(p(xy))

条件熵

       考虑多维矢量的情况,设N维随机矢量 X N = ( X 1 X 2 . . . X N ) \mathbf{X}^{N}=(X_{1}X_{2}...X_{N}) XN=(X1X2...XN)和M维随机矢量 Y M = ( Y 1 Y 2 . . . Y M ) \mathbf{Y}^{M}=(Y_{1}Y_{2}...Y_{M}) YM=(Y1Y2...YM),其中 x = ( x 1 , x 2 , . . . , x N ) \mathbf{x}=(x_{1}, x_{2}, ..., x_{N}) x=(x1,x2,...,xN) y = ( y 1 , y 2 , . . . , y M ) \mathbf{y}=(y_{1},y_{2},...,y_{M}) y=(y1,y2,...,yM),联合集 X N Y M \mathbf{X}^{N}\mathbf{Y}^{M} XNYM上,条件熵定义为 H ( Y M ∣ X N ) = − ∑ x y p ( x y ) l o g   p ( y ∣ x ) H(\mathbf{Y^{M}|X^{N}})=-\sum_{\mathbf{xy}}p(\mathbf{xy})log\,p(\mathbf{y|x}) H(YMXN)=xyp(xy)logp(yx)       回归到二维随机矢量 X Y \mathbf{XY} XY的情况,条件熵定义为条件自信息的概率平均值 H ( Y ∣ X ) = − ∑ x ∑ y p ( x y ) l o g   p ( y ∣ x ) H(Y|X)=-\sum_{x}\sum_{y}p(xy)log\,p(y|x) H(YX)=xyp(xy)logp(yx)       熵与条件熵的关系可表示为 H ( Y ∣ X ) ⩽ H ( X ) H(\mathbf{Y|X})\leqslant H(\mathbf{X}) H(YX)H(X)       这就是著名的熵不增原理,即条件熵永远不会大于随机变量自己的信息熵。

平均互信息

       离散随机变量 X , Y \mathbf{X,Y} X,Y之间的平均互信息定义为 I ( X ; Y ) = ∑ x p ( x ) ∑ y p ( y ∣ x ) l o g   p ( y ∣ x ) p ( y ) = ∑ x y p ( x ) p ( y ∣ x ) l o g p ( y ∣ x ) ∑ x p ( x ) p ( y ∣ x ) I(\mathbf{X;Y})=\sum_{x}p(x)\sum_{y}p(y|x)log\,\frac{p(y|x)}{p(y)}=\sum_{xy}p(x)p(y|x)log \frac{p(y|x)}{\sum_{x}p(x)p(y|x)} I(X;Y)=xp(x)yp(yx)logp(y)p(yx)=xyp(x)p(yx)logxp(x)p(yx)p(yx)       平均互信息其实就是在互信息 I ( x ; y ) I(x;y) I(x;y)在概率空间 X Y \mathbf{XY} XY中求统计平均的结果,是从整体上表示一个随机变量 Y \mathbf{Y} Y提供的关于另一个随机变量 X \mathbf{X} X的信息量。
       平均互信息和熵之间的关系有 I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) I(\mathbf{X;Y})=H(X)-H(X|Y) I(X;Y)=H(X)H(XY) I ( X ; Y ) = H ( Y ) − H ( Y ∣ X ) I(\mathbf{X;Y})=H(Y)-H(Y|X) I(X;Y)=H(Y)H(YX) I ( X ; Y ) = H ( X ) + H ( Y ) − H ( X Y ) I(X;Y)=H(X)+H(Y)-H(XY) I(X;Y)=H(X)+H(Y)H(XY)       从通信的角度理解,建立一个简单的信道模型 Y = H X \mathbf{Y=HX} Y=HX       其中 X \mathbf{X} X为发送信号; Y \mathbf{Y} Y为接收信号; H \mathbf{H} H为无线信道。 H ( X ) H(\mathbf{X}) H(X)表示发送信号 X \mathbf{X} X的整体不确定度; H ( X ∣ Y ) H(\mathbf{X|Y}) H(XY)表示接收信号 Y \mathbf{Y} Y中关于 X \mathbf{X} X不确定度,则平均互信息即为两者之差,表示关于 X \mathbf{X} X的不确定度的变化,即通过 Y \mathbf{Y} Y可获取到的关于 X \mathbf{X} X的信息量,我们肯定希望从 Y \mathbf{Y} Y中获取到的关于 X \mathbf{X} X的信息量越多越好,这样更有助于我们完成对 X \mathbf{X} X的估计。

信道容量

       此处我们只讨论确定性信道的信道容量,确定性信道的容量被定义为 C = m a x f ( x ) I ( x ; y ) C=\underset{f(x)}{max}I(\mathbf{x;y}) C=f(x)maxI(x;y)       其中 f ( x ) f(x) f(x)表示发射信号向量 X \mathbf{X} X的PDF(概率密度函数); I ( x ; y ) I(\mathbf{x;y}) I(x;y)表示随机变量 X \mathbf{X} X Y \mathbf{Y} Y之间的互信息;此确定性信道的容量定义为平均互信息的最大值。上述关于信道容量的定义,我们可以从两个方面理解:第一,当信道确定时,它对应的信道容量也已经确定,且与发送信号 X \mathbf{X} X的分布无关;第二,当信道的容量是否能达到理论值与发送信号 X \mathbf{X} X的分布有关,即存在满许某种概率分布的发送信号 X \mathbf{X} X,使得当前信道的实际容量能达到该信道的理论信道容量。
       在进行polar编码时,我们就是通过子信道的信道容量来判断它的“好”“坏”。将信息传输在“好”的子信道上,我们可以从接收信号Y中获取到更多关于发送信号X的信息量,从而更好的抵抗无线信道对于传输X的不利影响,更大概率的正确还原X。

参考文献:
1、《信息论基础第二版》作者 田宝玉/杨洁/贺志强/许文俊
2、《MIMO-OFDM无线通信技术及MATLAB实现》作者 孙锴/黄威译

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

寂小小寞

原创不易,希望多多支持,感谢

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值