本文主要介绍和Polar码相关的信息论一些基本概念,包括自信息、互信息、信息熵和信道容量;便于后续对Polar码的介绍与研究。
自信息
事件集合X中的事件
x
=
a
i
x=a_{i}
x=ai的自信息定义为
I
x
(
a
i
)
=
−
l
o
g
P
x
(
a
i
)
I_{x}(a_{i})=-logP_{x}(a_{i})
Ix(ai)=−logPx(ai) 可以简单标记为
I
(
x
)
=
−
l
o
g
p
(
x
)
I(x)=-log\, p(x)
I(x)=−logp(x) 对于上述定义,有
a
i
∈
X
a_{i} \in X
ai∈X,且有
∑
i
=
1
n
P
X
(
a
i
)
=
1
,
0
≤
P
X
(
a
i
)
≤
1
\sum_{i=1}^{n}P_{X}(a_{i})=1,0\leq P_{X}(a_{i})\leq 1
∑i=1nPX(ai)=1,0≤PX(ai)≤1;对于自信息的单位,若上述对数是以2为底,则单位为比特(bit);若是以10为底,则单位为迪特(Dit)或者哈特(Hart)。
对于一个事件,当它发生的概率越低时,它所包含的信息量就越大,这个与我们的直观感觉是相吻合的,比如一个班级内上个学期考倒数第一的同学,这个学期突然考了第一名,这件事情发生的概率是比较低的,因此当它发生后会给我们带来很大的惊讶,即这件事情包含的信息量是比较大的,很可能是一个“爆炸性新闻”。
联合自信息
联合事件集合XY中的事件
x
=
a
i
x=a_{i}
x=ai,
y
=
b
j
y=b_{j}
y=bj包含的联合自信息定义为
I
X
Y
(
a
i
,
b
j
)
=
−
l
o
g
P
X
Y
(
a
i
,
b
j
)
I_{XY}(a_{i}, b_{j})=-log\, P_{XY}(a_{i}, b_{j})
IXY(ai,bj)=−logPXY(ai,bj) 可以简记为
I
(
x
y
)
=
−
l
o
g
p
(
x
y
)
I(xy)=-log\, p(xy)
I(xy)=−logp(xy) 其中
p
(
x
y
)
p(xy)
p(xy)满足非负性和归一化条件。
条件自信息
给定联合事件集XY,事件 x = a i x=a_{i} x=ai在事件 y = b j y=b_{j} y=bj给定条件下的条件自信息定义为 I X / Y ( a i ∣ b j ) = − l o g P X / Y ( a i ∣ b j ) I_{X/Y}(a_{i}|b_{j})=-log\, P_{X/Y}(a_{i}|b_{j}) IX/Y(ai∣bj)=−logPX/Y(ai∣bj) 可以简记为 I ( x ∣ y ) = − l o g p ( x ∣ y ) I(x|y)=-log\, p(x|y) I(x∣y)=−logp(x∣y) 其中 p ( x ∣ y ) p(x|y) p(x∣y)表示在事件y发生前提下事件x发生的条件概率;并且自信息、联合自信息和条件自信息之间的关系如下 I ( x y ) = I ( x ) + I ( y ∣ x ) = I ( y ) + I ( x ∣ y ) I(xy)=I(x)+I(y|x)=I(y)+I(x|y) I(xy)=I(x)+I(y∣x)=I(y)+I(x∣y) 上述这个式子可以从条件概率的公式出发简单证明一下,条件概率的定义为 p ( x ∣ y ) = p ( x y ) / p ( y ) p(x|y)=p(xy)/p(y) p(x∣y)=p(xy)/p(y) 则有 p ( x y ) = p ( x ∣ y ) ∗ p ( y ) p(xy)=p(x|y)*p(y) p(xy)=p(x∣y)∗p(y) 对两边同时取对数有并同乘负号有 − l o g p ( x y ) = − l o g ( p ( x ∣ y ) ) − l o g ( p ( y ) ) -log\,p(xy)=-log(p(x|y))-log(p(y)) −logp(xy)=−log(p(x∣y))−log(p(y)) 即可得证上式。
互信息
设两个事件集合X和Y,其中事件 x ∈ X x\in X x∈X,事件 y ∈ Y y\in Y y∈Y。由于特定的限制,我们通过观察y来获取对x的信息。离散随机事件 x = a i x=a_{i} x=ai和 y = b j y=b_{j} y=bj之间的互信息( x ∈ X , y ∈ Y x\in X,y\in Y x∈X,y∈Y)定义为 I X ; Y ( a i ; b j ) = l o g P X ∣ Y ( a i ∣ b j ) P X ( a i ) I_{X;Y}(a_{i};b_{j})=log\frac{P_{X|Y}(a_{i}|b_{j})}{P_{X}(a_{i})} IX;Y(ai;bj)=logPX(ai)PX∣Y(ai∣bj) 可以简记为 I ( x ; y ) = l o g p ( x ∣ y ) p ( x ) = l o g p ( y ∣ x ) p ( x ) = l o g p ( x y ) p ( x ) p ( y ) I(x;y)=log\frac{p(x|y)}{p(x)}=log\frac{p(y|x)}{p(x)}=log\frac{p(xy)}{p(x)p(y)} I(x;y)=logp(x)p(x∣y)=logp(x)p(y∣x)=logp(x)p(y)p(xy) 通过计算可得 I ( x ; y ) = I ( x ) − I ( x ∣ y ) I(x;y)=I(x)-I(x|y) I(x;y)=I(x)−I(x∣y) 互信息反映了两个随机事件x和y之间的相关性,当x和y统计独立时,则互信息为0。在通信系统中,当收端接收到信号y后,获取的关于发端信号x的信息量;为了能够通过y准确的估计x,这种关联性肯定越大越好。Polar编码在某种程度上也是利用这一特性进行编码,改善x和y之间的相关性,从而提高信息传输的可靠性。
条件互信息
设联合事件集XYZ,在给定 z ∈ Z z\in Z z∈Z条件下, x ∈ X x\in X x∈X和 y ∈ Y y\in Y y∈Y之间的条件互信息定义为 I ( x ; y ∣ z ) = l o g p ( x ∣ y z ) p ( x ∣ z ) I(x;y|z)=log\frac{p(x|yz)}{p(x|z)} I(x;y∣z)=logp(x∣z)p(x∣yz)
信息熵
离散随机变量X(随机变量可以理解为事件集合中某一或者某些事件的发生)的熵定义为自信息的平均值
H
(
X
)
=
−
∑
x
p
(
x
)
l
o
g
p
(
x
)
H(X)=-\sum_{x}p(x)log\,p(x)
H(X)=−x∑p(x)logp(x) 其中X的概率分布可写成矢量形式,称为概率矢量,记为
p
=
(
p
1
,
p
2
,
.
.
.
,
p
n
)
\mathbf{p}=(p_{1},p_{2},...,p_{n})
p=(p1,p2,...,pn),则X的熵可简记为
H
(
x
)
=
H
(
p
)
=
H
(
p
1
,
p
2
,
.
.
.
,
p
n
)
H(x)=H(\mathbf{p})=H(p_{1},p_{2},...,p_{n})
H(x)=H(p)=H(p1,p2,...,pn) 前边介绍过,自信息表示某一随机事件发生的不确定性的度量,而信息熵则表示在概率平均意义上随机变量整体不确定性的度量,其具体含义还可表现在以下几个方面
1)在事件发生前,表示随机变量取值的平均不确定性
2)在事件发生后,其不确定性就被解除,熵就是解除随机变量不确定平均所需要的信息量。
联合熵
联合熵用于多维随机矢量的信息度量。设N维随机矢量 X N = ( X 1 , X 2 , . . . , X N ) \mathbf{X}^{N}=(X_{1},X_{2},...,X_{N}) XN=(X1,X2,...,XN),取值为 x = ( x 1 , x 2 , . . . , x n ) \mathbf{x}=(x_{1}, x_{2},...,x_{n}) x=(x1,x2,...,xn),联合熵的定义为联合自信息的概率平均值 H ( X N ) = H ( X 1 X 2 . . . X N ) = − ∑ x p ( x ) ∗ l o g p ( x ) H(\mathbf{X}^{N})=H(X_{1}X_{2}...X_{N})=-\sum_{x}p(\mathbf{x})*log\,p(\mathbf{x}) H(XN)=H(X1X2...XN)=−x∑p(x)∗logp(x) 其中 p ( x ) p(\mathbf{x}) p(x)为矢量 x \mathbf{x} x的联合概率。对于二维随机矢量 X Y \mathbf{XY} XY,联合熵表示为 H ( X Y ) = − ∑ x ∑ y p ( x y ) l o g ( p ( x y ) ) H(\mathbf{XY})=-\sum_{x}\sum_{y}p(xy)log\,(p(xy)) H(XY)=−x∑y∑p(xy)log(p(xy))
条件熵
考虑多维矢量的情况,设N维随机矢量 X N = ( X 1 X 2 . . . X N ) \mathbf{X}^{N}=(X_{1}X_{2}...X_{N}) XN=(X1X2...XN)和M维随机矢量 Y M = ( Y 1 Y 2 . . . Y M ) \mathbf{Y}^{M}=(Y_{1}Y_{2}...Y_{M}) YM=(Y1Y2...YM),其中 x = ( x 1 , x 2 , . . . , x N ) \mathbf{x}=(x_{1}, x_{2}, ..., x_{N}) x=(x1,x2,...,xN)和 y = ( y 1 , y 2 , . . . , y M ) \mathbf{y}=(y_{1},y_{2},...,y_{M}) y=(y1,y2,...,yM),联合集 X N Y M \mathbf{X}^{N}\mathbf{Y}^{M} XNYM上,条件熵定义为 H ( Y M ∣ X N ) = − ∑ x y p ( x y ) l o g p ( y ∣ x ) H(\mathbf{Y^{M}|X^{N}})=-\sum_{\mathbf{xy}}p(\mathbf{xy})log\,p(\mathbf{y|x}) H(YM∣XN)=−xy∑p(xy)logp(y∣x) 回归到二维随机矢量 X Y \mathbf{XY} XY的情况,条件熵定义为条件自信息的概率平均值 H ( Y ∣ X ) = − ∑ x ∑ y p ( x y ) l o g p ( y ∣ x ) H(Y|X)=-\sum_{x}\sum_{y}p(xy)log\,p(y|x) H(Y∣X)=−x∑y∑p(xy)logp(y∣x) 熵与条件熵的关系可表示为 H ( Y ∣ X ) ⩽ H ( X ) H(\mathbf{Y|X})\leqslant H(\mathbf{X}) H(Y∣X)⩽H(X) 这就是著名的熵不增原理,即条件熵永远不会大于随机变量自己的信息熵。
平均互信息
离散随机变量
X
,
Y
\mathbf{X,Y}
X,Y之间的平均互信息定义为
I
(
X
;
Y
)
=
∑
x
p
(
x
)
∑
y
p
(
y
∣
x
)
l
o
g
p
(
y
∣
x
)
p
(
y
)
=
∑
x
y
p
(
x
)
p
(
y
∣
x
)
l
o
g
p
(
y
∣
x
)
∑
x
p
(
x
)
p
(
y
∣
x
)
I(\mathbf{X;Y})=\sum_{x}p(x)\sum_{y}p(y|x)log\,\frac{p(y|x)}{p(y)}=\sum_{xy}p(x)p(y|x)log \frac{p(y|x)}{\sum_{x}p(x)p(y|x)}
I(X;Y)=x∑p(x)y∑p(y∣x)logp(y)p(y∣x)=xy∑p(x)p(y∣x)log∑xp(x)p(y∣x)p(y∣x) 平均互信息其实就是在互信息
I
(
x
;
y
)
I(x;y)
I(x;y)在概率空间
X
Y
\mathbf{XY}
XY中求统计平均的结果,是从整体上表示一个随机变量
Y
\mathbf{Y}
Y提供的关于另一个随机变量
X
\mathbf{X}
X的信息量。
平均互信息和熵之间的关系有
I
(
X
;
Y
)
=
H
(
X
)
−
H
(
X
∣
Y
)
I(\mathbf{X;Y})=H(X)-H(X|Y)
I(X;Y)=H(X)−H(X∣Y)
I
(
X
;
Y
)
=
H
(
Y
)
−
H
(
Y
∣
X
)
I(\mathbf{X;Y})=H(Y)-H(Y|X)
I(X;Y)=H(Y)−H(Y∣X)
I
(
X
;
Y
)
=
H
(
X
)
+
H
(
Y
)
−
H
(
X
Y
)
I(X;Y)=H(X)+H(Y)-H(XY)
I(X;Y)=H(X)+H(Y)−H(XY) 从通信的角度理解,建立一个简单的信道模型
Y
=
H
X
\mathbf{Y=HX}
Y=HX 其中
X
\mathbf{X}
X为发送信号;
Y
\mathbf{Y}
Y为接收信号;
H
\mathbf{H}
H为无线信道。
H
(
X
)
H(\mathbf{X})
H(X)表示发送信号
X
\mathbf{X}
X的整体不确定度;
H
(
X
∣
Y
)
H(\mathbf{X|Y})
H(X∣Y)表示接收信号
Y
\mathbf{Y}
Y中关于
X
\mathbf{X}
X不确定度,则平均互信息即为两者之差,表示关于
X
\mathbf{X}
X的不确定度的变化,即通过
Y
\mathbf{Y}
Y可获取到的关于
X
\mathbf{X}
X的信息量,我们肯定希望从
Y
\mathbf{Y}
Y中获取到的关于
X
\mathbf{X}
X的信息量越多越好,这样更有助于我们完成对
X
\mathbf{X}
X的估计。
信道容量
此处我们只讨论确定性信道的信道容量,确定性信道的容量被定义为
C
=
m
a
x
f
(
x
)
I
(
x
;
y
)
C=\underset{f(x)}{max}I(\mathbf{x;y})
C=f(x)maxI(x;y) 其中
f
(
x
)
f(x)
f(x)表示发射信号向量
X
\mathbf{X}
X的PDF(概率密度函数);
I
(
x
;
y
)
I(\mathbf{x;y})
I(x;y)表示随机变量
X
\mathbf{X}
X和
Y
\mathbf{Y}
Y之间的互信息;此确定性信道的容量定义为平均互信息的最大值。上述关于信道容量的定义,我们可以从两个方面理解:第一,当信道确定时,它对应的信道容量也已经确定,且与发送信号
X
\mathbf{X}
X的分布无关;第二,当信道的容量是否能达到理论值与发送信号
X
\mathbf{X}
X的分布有关,即存在满许某种概率分布的发送信号
X
\mathbf{X}
X,使得当前信道的实际容量能达到该信道的理论信道容量。
在进行polar编码时,我们就是通过子信道的信道容量来判断它的“好”“坏”。将信息传输在“好”的子信道上,我们可以从接收信号Y中获取到更多关于发送信号X的信息量,从而更好的抵抗无线信道对于传输X的不利影响,更大概率的正确还原X。
参考文献:
1、《信息论基础第二版》作者 田宝玉/杨洁/贺志强/许文俊
2、《MIMO-OFDM无线通信技术及MATLAB实现》作者 孙锴/黄威译