信息科学基础期中复习笔记

教材:《信息论基础》(第三版)石峰,莫忠息,武汉大学出版社
第1-4章
为了复习之便,对教材顺序可能有所调整。

Chapter 1 概论

在这里插入图片描述
老三论:控制论,系统论,信息论
Shannon,1956:Shannon熵
自信息 I ( A ) = − log ⁡ P ( A ) I(A)=-\log P(A) I(A)=logP(A) 事件的发生概率越小,产生的信息量越大
H = − ∑ i p i log ⁡ ( p i ) H=-\sum_{i} p_i\log (p_i) H=ipilog(pi)

Chapter 2 信息与熵

离散信源 ( S , P ) (S,P) (S,P): 有限符号集 S = { x 1 , . . . , x n } S=\{x_1,...,x_n\} S={x1,...,xn},P为其上的一个概率分布,其中 x i x_i xi的概率为 p i p_i pi
自信息 I ( x i ) = − log ⁡ p i I(x_i)=-\log p_i I(xi)=logpi,其中底数可以任意取,但一般取为2,此时信息的单位为bit 意义:一个从{0,1}中等概率取值的随机变量的信息为1bit
H ( S ) = − ∑ i p i log ⁡ p i H(S)=-\sum_i p_i\log p_i H(S)=ipilogpi,特别地,指定 0 ⋅ l o g 0 = 0 0 ·log0=0 0log0=0
熵函数的唯一性:满足以下三个直觉性质的熵函数唯一,形如 H ( S ) = − ∑ i p i log ⁡ C p i H(S)=-\sum_i p_i\log_C p_i H(S)=ipilogCpi

  1. H ( p 1 , . . . , p n ) H(p_1,...,p_n) H(p1,...,pn)对所有分布有定义且连续
  2. H ( 1 n , . . . , 1 n ) < H ( 1 n + 1 , . . . , 1 n + 1 ) H(\frac{1}{n},...,\frac{1}{n})< H(\frac{1}{n+1},...,\frac{1}{n+1}) H(n1,...,n1)<H(n+11,...,n+11)
  3. H ( 1 n , . . . , 1 n ) = H ( b 1 n , . . . , b k n ) + ∑ i k b i n H ( 1 b i , . . . , 1 b i ) H(\frac{1}{n},...,\frac{1}{n})=H(\frac{b_1}{n},...,\frac{b_k}{n})+\sum_i^k \frac{b_i}{n}H(\frac{1}{b_i},...,\frac{1}{b_i}) H(n1,...,n1)=H(nb1,...,nbk)+iknbiH(bi1,...,bi1)

熵的性质

  1. 0 ≤ H ( S ) ≤ log ⁡ n 0\leq H(S)\leq \log n 0H(S)logn,前者取等当且仅当 p k = 1 p_k=1 pk=1,其余为0,后者取等当且仅当 p i = 1 n , ∀ i p_i=\frac{1}{n},\forall i pi=n1,i
  2. x 1 , , . . , x n x_1,,..,x_n x1,,..,xn的顺序无关,仅与概率分布有关
  3. 特别的,如果一个离散随机变量X的分布和S相同,则X的熵定义同上,之后也不再和信源区分

联合熵 H ( X , Y ) = − ∑ i , j p ( x i , y j ) log ⁡ p ( x i , y j ) H(X,Y)=-\sum_{i,j} p(x_i,y_j)\log p(x_i,y_j) H(X,Y)=i,jp(xi,yj)logp(xi,yj)
显然,X和Y的联合熵就是随机向量(X,Y)的熵,同理可以定义多元联合熵
性质4: H ( X , Y ) ≤ H ( X ) + H ( Y ) H(X,Y)\leq H(X)+H(Y) H(X,Y)H(X)+H(Y),取等当且仅当X和Y独立(用条件熵比较好证),同理 H ( X 1 , . . . , X n ) ≤ H ( X 1 ) + . . . + H ( X n ) H(X_1,...,X_n)\leq H(X_1)+...+H(X_n) H(X1,...,Xn)H(X1)+...+H(Xn)
条件熵 H ( X ∣ Y = y ) = − ∑ i p ( x i ∣ y ) log ⁡ p ( x i ∣ y ) H(X|Y=y)=-\sum_i p(x_i|y)\log p(x_i|y) H(XY=y)=ip(xiy)logp(xiy)
H ( X ∣ Y ) = ∑ j p ( Y = y j ) H ( X ∣ Y = y j ) = − ∑ i , j p ( x i , y j ) log ⁡ p ( x i ∣ y j ) H(X|Y)=\sum_jp(Y=y_j)H(X|Y=y_j)=-\sum_{i,j} p(x_i,y_j)\log p(x_i|y_j) H(XY)=jp(Y=yj)H(XY=yj)=i,jp(xi,yj)logp(xiyj)
由于 p ( x i ∣ y j ) = p ( x i , y j ) / p ( y j ) p(x_i|y_j)=p(x_i,y_j)/p(y_j) p(xiyj)=p(xi,yj)/p(yj),可得以下式子:
H ( X ∣ Y ) = H ( X , Y ) − H ( Y ) H(X|Y)=H(X,Y)-H(Y) H(XY)=H(X,Y)H(Y)
推论:性质5: H ( X ∣ Y ) ≤ H ( X , Y ) , H ( Y ) ≤ H ( X , Y ) H(X|Y)\leq H(X,Y),H(Y)\leq H(X,Y) H(XY)H(X,Y),H(Y)H(X,Y)
性质6(条件熵减): H ( X ∣ Y ) ≤ H ( X ) H(X|Y)\leq H(X) H(XY)H(X),取等当且仅当X和Y独立
推论:性质4
熵函数的性质
性质7: ∑ i p i log ⁡ 1 p i ≤ ∑ i p i log ⁡ 1 q i \sum_i p_i \log \frac{1}{p_i}\leq \sum_i p_i \log \frac{1}{q_i} ipilogpi1ipilogqi1对任意分布p和子分布q成立( ∑ i q i ≤ 1 \sum_i q_i\leq1 iqi1
性质8:可加性(分组求熵),对称性,扩展性(增加一个取值 ϵ \epsilon ϵ的随机变量没有影响)
(下)凸函数:形如 y = x 2 y=x^2 y=x2;反之为凹(上凸)函数
性质9:在n元概率分布定义的凸空间K上,熵函数 H ( p 1 , . . . , p n ) H(p_1,...,p_n) H(p1,...,pn)为凹函数
微分熵
对于连续型随机变量X,定义其微分熵 H C ( X ) = − ∫ − ∞ ∞ p ( x ) ln ⁡ p ( x ) d x H_C(X)=-\int_{-\infty}^{\infty} p(x)\ln p(x)dx HC(X)=p(x)lnp(x)dx(底数为自然对数)
对于常见的分布:
H C ( U [ a , b ] ) = ln ⁡ ( b − a ) H_C(U[a,b])=\ln (b-a) HC(U[a,b])=ln(ba), H C ( N [ μ , σ 2 ] ) = 1 2 ln ⁡ ( 2 π e σ 2 ) H_C(N[\mu,\sigma^2])=\frac{1}{2} \ln (2\pi e\sigma^2) HC(N[μ,σ2])=21ln(2πeσ2)
对于一般的分布X:熵功率 σ ˉ 2 = 1 2 π e e 2 H C ( X ) \bar{\sigma}^2=\frac{1}{2\pi e} e^{2H_C(X)} σˉ2=2πe1e2HC(X),特别的,对于正态分布,熵功率和方差相等
性质10:微分熵和熵最大的区别为其取值范围为 ( − ∞ , ∞ ) (-\infty,\infty) (,)
其它微分熵 H C ( X , Y ) , H C ( X ∣ Y ) H_C(X,Y),H_C(X|Y) HC(X,Y),HC(XY),保持了以下关系:
性质11: H C ( X ∣ Y ) + H C ( Y ) = H C ( X , Y ) H_C(X|Y)+H_C(Y)=H_C(X,Y) HC(XY)+HC(Y)=HC(X,Y)
性质12: H C ( X ∣ Y ) ≤ H C ( X ) H_C(X|Y)\leq H_C(X) HC(XY)HC(X)
性质13: H C ( X ) + H C ( Y ) ≤ H C ( X , Y ) H_C(X)+H_C(Y)\leq H_C(X,Y) HC(X)+HC(Y)HC(X,Y)
附加约束下的微分熵界限
性质14:若X在(-M,M)上取值,则 H C ( X ) ≤ ln ⁡ 2 M H_C(X)\leq \ln 2M HC(X)ln2M,取等当且仅当X为均匀分布
性质15:若X的方差为 σ 2 \sigma^2 σ2,则 H C ( X ) ≤ ln ⁡ 2 π e σ H_C(X)\leq \ln \sqrt{2 \pi e}\sigma HC(X)ln2πe σ,取等当且仅当X为正态分布
注:求一个随机变量X的函数g(X)的密度函数的方法:

  1. 直接求g(X)的分布函数 F ( a ) = P { g ( X ) < a } F(a)=P\{g(X)<a\} F(a)=P{g(X)<a},再对F求导得到密度函数
  2. (密度变换公式)设随机变量 ξ \xi ξ 的密度函数为 p ξ ( x ) , a < x < b p_{\xi}(x), a<x<b pξ(x),a<x<b. 如果可 以把 ( a , b ) (a, b) (a,b) 分割为一些 (有限个或可列个) 互不重叠的子区间的和 ( a , b ) = ⋃ j I j (a, b)=\bigcup_{j} I_{j} (a,b)=jIj, 使得函数 u = g ( t ) , t ∈ ( a , b ) u=g(t), t \in(a, b) u=g(t),t(a,b) 在每个子区间上有唯一的反函数 h j ( u ) h_{j}(u) hj(u), 并且 h j ′ ( u ) h_{j}^{\prime}(u) hj(u) 存 在连续, 则 η = g ( ξ ) \eta=g(\xi) η=g(ξ) 是连续型随机变量, 其密度函数为:
    p η ( x ) = ∑ j p ξ ( h j ( x ) ) ∣ h j ′ ( x ) ∣ p_{\eta}(x)=\sum_{j} p_{\xi}\left(h_{j}(x)\right)\left|h_{j}^{\prime}(x)\right| pη(x)=jpξ(hj(x))hj(x)
    例如: X ∼ U [ a , b ] X\sim U[a,b] XU[a,b],求 X 2 X^2 X2的密度函数。
    解:1: F ( k ) = P { X 2 < k } = P { − k < X < k } = 1 b − a ( min ⁡ { k , b } − max ⁡ { − k , a } ) ( k > 0 ) F(k)=P\{X^2<k\}=P\{-\sqrt{k}<X<\sqrt{k}\}=\frac{1}{b-a}({\min\{\sqrt{k},b\}}-\max\{-\sqrt{k},a\})(k>0) F(k)=P{X2<k}=P{k <X<k }=ba1(min{k ,b}max{k ,a})(k>0),然后分类对k求导即可
    2:由于需要 X 2 X^2 X2单调,因此需要将[a,b]分割为大于0和小于0的两部分:
    在大于0的部分:g的反函数是 x \sqrt{x} x ,导数存在连续,则 p g ( X ) ( x ) = p X ( x ) × 1 2 x − 1 2 p_{g(X)}(x)= p_X(\sqrt{x})\times \frac{1}{2}x^{-\frac{1}{2}} pg(X)(x)=pX(x )×21x21,小于0的部分同理,加上讨论和判断 x \sqrt{x} x 的取值区间即可。

Chapter 3 互信息

互信息:事件 b j b_j bj对于事件 a i a_i ai的互信息 I ( a i ; b j ) = log ⁡ p ( a i , b j ) p ( a i ) p ( b j ) = log ⁡ p ( a i ∣ b j ) p ( a i ) = I ( b j ; a i ) I(a_i;b_j)=\log \frac{p(a_i,b_j)}{p(a_i)p(b_j)}=\log \frac{p(a_i|b_j)}{p(a_i)}=I(b_j;a_i) I(ai;bj)=logp(ai)p(bj)p(ai,bj)=logp(ai)p(aibj)=I(bj;ai),独立时=0
特别的, I ( a i ; a i ) = I ( a i ) I(a_i;a_i)=I(a_i) I(ai;ai)=I(ai)(自信息)
条件自信息 I ( a i ∣ b j ) = log ⁡ p ( b j ) p ( a i , b j ) I(a_i|b_j)=\log \frac{p(b_j)}{p(a_i,b_j)} I(aibj)=logp(ai,bj)p(bj)
联合自信息 I ( a i , b j ) = log ⁡ 1 p ( a i , b j ) I(a_i,b_j)=\log \frac{1}{p(a_i,b_j)} I(ai,bj)=logp(ai,bj)1
记忆方法: I ( Y ) = log ⁡ 1 p ( Y ) I(Y)=\log{\frac{1}{p(Y)}} I(Y)=logp(Y)1
性质1: I ( a i ; b j ) + I ( a i , b j ) = I ( a i ) + I ( b j ) I(a_i;b_j)+I(a_i,b_j)=I(a_i)+I(b_j) I(ai;bj)+I(ai,bj)=I(ai)+I(bj)
条件互信息:在条件 x 1 , . . . , x n − 2 x_1,...,x_{n-2} x1,...,xn2下的 x N x_N xN关于 x N − 1 x_{N-1} xN1的条件互信息: I ( x N ; x N − 1 ∣ x 1 , ⋯   , x N − 2 ) = log ⁡ p ( x N ∣ x 1 , ⋯   , x N − 2 , x N − 1 ) p ( x N ∣ x 1 , ⋯   , x N − 2 ) I\left(x_{N} ; x_{N-1} \mid x_{1}, \cdots, x_{N-2}\right)=\log \frac{p\left(x_{N} \mid x_{1}, \cdots, x_{N-2}, x_{N-1}\right)}{p\left(x_{N} \mid x_{1}, \cdots, x_{N-2}\right)} I(xN;xN1x1,,xN2)=logp(xNx1,,xN2)p(xNx1,,xN2,xN1)
联合事件和事件之间的互信息
I ( a i ; b j , c k ) = log ⁡ p ( a i ∣ b j , c k ) p ( a i ) I\left(a_{i} ; b_{j}, c_{k}\right)=\log \frac{p\left(a_{i} \mid b_{j}, c_{k}\right)}{p\left(a_{i}\right)} I(ai;bj,ck)=logp(ai)p(aibj,ck)
性质2: I ( a i ; b j , c k ) = I ( a i ; b j ) + I ( a i ; c k ∣ b j ) = = I ( b j , c k ; a i ) = I ( b j ; a i ) + I ( c k ; a i ∣ b j ) = I ( a i ; b j ) + I ( c k ; a i ∣ b j ) . I\left(a_{i} ; b_{j}, c_{k}\right)=I\left(a_{i} ; b_{j}\right)+I\left(a_{i} ; c_{k} \mid b_{j}\right)=\begin{aligned} &=I\left(b_{j}, c_{k} ; a_{i}\right) \\ &=I\left(b_{j} ; a_{i}\right)+I\left(c_{k} ; a_{i} \mid b_{j}\right) \\ &=I\left(a_{i} ; b_{j}\right)+I\left(c_{k} ; a_{i} \mid b_{j}\right) . \end{aligned} I(ai;bj,ck)=I(ai;bj)+I(ai;ckbj)==I(bj,ck;ai)=I(bj;ai)+I(ck;aibj)=I(ai;bj)+I(ck;aibj).
注意:符号“,”,“;”,“|”的运算次序为 “,”,“;”和“|”.
平均互信息
定义为各个事件的互信息的数学期望
I ( X ; Y ) = E ( I ( a i ; b j ) ) = ∑ i ∑ j p ( a i , b j ) log ⁡ p ( a i , b j ) p ( a i ) p ( b j ) I(X ; Y)=E\left(I\left(a_{i} ; b_{j}\right)\right)=\sum_{i} \sum_{j} p\left(a_{i}, b_{j}\right) \log \frac{p\left(a_{i}, b_{j}\right)}{p\left(a_{i}\right) p\left(b_{j}\right)} I(X;Y)=E(I(ai;bj))=ijp(ai,bj)logp(ai)p(bj)p(ai,bj)
性质3: I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) = H ( X ) + H ( Y ) − H ( X , Y ) ≥ 0 I(X ; Y)=H(X)-H(X \mid Y)\\=H(X)+H(Y)-H(X, Y) \geq0 I(X;Y)=H(X)H(XY)=H(X)+H(Y)H(X,Y)0
在这里插入图片描述
同理,有:
平均联合互信息 I ( X ; Y Z ) = H ( X ) − H ( X ∣ Y Z ) = H ( Y Z ) − H ( Y Z ∣ X ) ≥ 0 \begin{aligned} I(X ; Y Z) &=H(X)-H(X \mid Y Z) \\ &=H(Y Z)-H(Y Z \mid X) \end{aligned}\geq0 I(X;YZ)=H(X)H(XYZ)=H(YZ)H(YZX)0
平均条件互信息 I ( X ; Y ∣ Z ) = ∑ k ∑ j ∑ l p ( a k , b j , c l ) log ⁡ p ( a k , b j ∣ c l ) p ( a k ∣ c l ) p ( b j ∣ c l ) ≥ 0 I(X ; Y \mid Z)=\sum_{k} \sum_{j} \sum_{l} p\left(a_{k}, b_{j}, c_{l}\right) \log \frac{p\left(a_{k}, b_{j} \mid c_{l}\right)}{p\left(a_{k} \mid c_{l}\right) p\left(b_{j} \mid c_{l}\right)}\geq0 I(X;YZ)=kjlp(ak,bj,cl)logp(akcl)p(bjcl)p(ak,bjcl)0
性质4: I ( X ; Y ∣ Z ) = H ( X ∣ Z ) − H ( X ∣ Y Z ) , I ( X ; Y ∣ Z ) = H ( Y ∣ Z ) − H ( Y ∣ X Z ) . I ( X ; Y ∣ Z ) = H ( X ∣ Z ) + H ( Y ∣ Z ) − H ( X Y ∣ Z ) . I ( X ; Y ∣ Z ) = H ( X Z ) − H ( Z ) − H ( X Y Z ) + H ( Z ) + H ( Y Z ) − H ( Z ) = H ( X Z ) + H ( Y Z ) − H ( X Y Z ) − H ( Z ) . \begin{aligned} I(X ; Y \mid Z)=& H(X \mid Z)-H(X \mid Y Z), \\ I(X ; Y \mid Z)=& H(Y \mid Z)-H(Y \mid X Z) . \\ I(X ; Y \mid Z)=& H(X \mid Z)+H(Y \mid Z)-H(X Y \mid Z) . \\ I(X ; Y \mid Z)=& H(X Z)-H(Z)-H(X Y Z)+H(Z) \\ &+H(Y Z)-H(Z) \\ =& H(X Z)+H(Y Z)-H(X Y Z)-H(Z) . \end{aligned} I(X;YZ)=I(X;YZ)=I(X;YZ)=I(X;YZ)==H(XZ)H(XYZ),H(YZ)H(YXZ).H(XZ)+H(YZ)H(XYZ).H(XZ)H(Z)H(XYZ)+H(Z)+H(YZ)H(Z)H(XZ)+H(YZ)H(XYZ)H(Z).
多元互信息
I ( X ; Y ; Z ) = ∑ k ∑ j ∑ l p ( a k , b j , c l ) log ⁡ p ( a k , b j ) p ( b j , c l ) p ( a k , c l ) p ( a k ) p ( b j ) p ( c l ) p ( a k , b j , c l ) I(X ; Y ; Z)=\sum_{k} \sum_{j} \sum_{l} p\left(a_{k}, b_{j}, c_{l}\right) \log \frac{p\left(a_{k}, b_{j}\right) p\left(b_{j}, c_{l}\right) p\left(a_{k}, c_{l}\right)}{p\left(a_{k}\right) p\left(b_{j}\right) p\left(c_{l}\right) p\left(a_{k}, b_{j}, c_{l}\right)} I(X;Y;Z)=kjlp(ak,bj,cl)logp(ak)p(bj)p(cl)p(ak,bj,cl)p(ak,bj)p(bj,cl)p(ak,cl),不一定大于等于0
性质5: I ( X ; Y ; Z ) = I ( X ; Y ) − I ( X ; Y ∣ Z ) I(X ; Y ; Z)=I(X ; Y)-I(X ; Y \mid Z) I(X;Y;Z)=I(X;Y)I(X;YZ),由于X,Y,Z可以轮换,因此可以得到若干个条件互信息的关系式
互信息函数的性质:
可以将X与Y的互信息 I ( X ; Y ) I(X;Y) I(X;Y)看作关于X的概率分布P和Y关于X的条件分布矩阵Q的函数 I ( P , Q ) I(P,Q) I(P,Q),则:
性质6: I ( P , Q ) I(P,Q) I(P,Q)是关于P的凹(上凸)函数
性质7: I ( P , Q ) I(P,Q) I(P,Q)是关于Q的凸(下凸)函数
同理,可以定义连续随机变量的互信息:
I ( X ; Y ) = E X Y ( I ( x ; y ) ) = ∬ X Y ( x , y ) log ⁡ p X ∣ Y ( x ∣ y ) p X ( x ) d x   d y = ∬ X Y ( x , y ) log ⁡ p X Y ( x , y ) p X ( x ) p Y ( y ) d x   d y . \begin{aligned} I(X ; Y) &=E_{X Y}(I(x ; y)) \\ &=\iint_{X Y}(x, y) \log \frac{p_{X \mid Y}(x \mid y)}{p_{X}(x)} \mathrm{d} x \mathrm{~d} y \\ &=\iint_{X Y}(x, y) \log \frac{p_{X Y}(x, y)}{p_{X}(x) p_{Y}(y)} \mathrm{d} x \mathrm{~d} y . \end{aligned} I(X;Y)=EXY(I(x;y))=XY(x,y)logpX(x)pXY(xy)dx dy=XY(x,y)logpX(x)pY(y)pXY(x,y)dx dy.
I ( X ; Y ∣ Z ) = ∭ X Y Z ( x , y , z ) log ⁡ p X Y ∣ Z ( x , y ∣ z ) p X ∣ Z ( x ∣ z ) p Y ∣ Z ( y ∣ z ) d x   d y   d z I(X ; Y \mid Z)=\iiint_{X Y Z}(x, y, z) \log \frac{p_{X Y \mid Z}(x, y \mid z)}{p_{X \mid Z}(x \mid z) p_{Y \mid Z}(y \mid z)} \mathrm{d} x \mathrm{~d} y \mathrm{~d} z I(X;YZ)=XYZ(x,y,z)logpXZ(xz)pYZ(yz)pXYZ(x,yz)dx dy dz
I ( X Y ; Z ) = ∭ X Y Z ( x , y , z ) log ⁡ p X Y Z ( x , y , z ) p X Y ( x , y ) p Z ( z ) d x   d y   d z I(X Y ; Z)=\iiint_{X Y Z}(x, y, z) \log \frac{p_{X Y Z}(x, y, z)}{p_{X Y}(x, y) p_{Z}(z)} \mathrm{d} x \mathrm{~d} y \mathrm{~d} z I(XY;Z)=XYZ(x,y,z)logpXY(x,y)pZ(z)pXYZ(x,y,z)dx dy dz
性质8: I ( X ; Y ) ⩾ 0 ; I ( X ; Y ) = I ( Y ; X ) , I ( X ; Y ∣ Z ) = I ( Y ; X ∣ Z ) I ( X Y ; Z ) = I ( X ; Z ) + I ( Y ; Z ∣ X ) = I ( Y ; Z ) + I ( X ; Z ∣ Y ) \begin{aligned} &I(X ; Y) \geqslant 0 ; \\ &I(X ; Y)=I(Y ; X), I(X ; Y \mid Z)=I(Y ; X \mid Z) \\ &I(X Y ; Z)=I(X ; Z)+I(Y ; Z \mid X)=I(Y ; Z)+I(X ; Z \mid Y) \end{aligned} I(X;Y)0;I(X;Y)=I(Y;X),I(X;YZ)=I(Y;XZ)I(XY;Z)=I(X;Z)+I(Y;ZX)=I(Y;Z)+I(X;ZY)

Chapter 4 信源与信源编码简介

信源:信息的来源
在这里插入图片描述
离散无记忆信源的定长编码
无记忆信源的输出是一个长为N的iid序列 ( x 1 , . . . , x N ) (x_1,...,x_N) (x1,...,xN) p ( x ) = ∏ i = 1 N p ( x i ) p(x)=\prod_{i=1}^{N} p\left(x_{i}\right) p(x)=i=1Np(xi),自信息为 I ( x ) = − log ⁡ p ( x ) = ∑ i = 1 N ( − log ⁡ p ( x i ) ) = ∑ i = 1 N I ( x i ) I(x)=-\log p(x)=\sum_{i=1}^{N}\left(-\log p\left(x_{i}\right)\right)=\sum_{i=1}^{N} I\left(x_{i}\right) I(x)=logp(x)=i=1N(logp(xi))=i=1NI(xi),根据大数定律,平均自信息 I N ( x ) ≜ I ( x ) N = 1 N ∑ i = 1 N I ( x i ) → H ( X ) = − ∑ i = 1 K p ( a i ) log ⁡ p ( a i ) = ∑ i = 1 K p ( a i ) I ( a i ) I_{N}(x) \triangleq \frac{I(x)}{N}=\frac{1}{N} \sum_{i=1}^{N} I\left(x_{i}\right) \rightarrow H(X)=-\sum_{i=1}^{K} p\left(a_{i}\right) \log p\left(a_{i}\right)=\sum_{i=1}^{K} p\left(a_{i}\right) I\left(a_{i}\right) IN(x)NI(x)=N1i=1NI(xi)H(X)=i=1Kp(ai)logp(ai)=i=1Kp(ai)I(ai)
从而,无记忆信源的输出相当集中于平均信息量接近X的熵的小部分序列之中。从而,称集合
T X ( N , ε ) = { x = x 1 ⋯ x N ∣ H ( X ) − ε ⩽ I N ( x ) ⩽ H ( X ) + ε } T_{X}(N, \varepsilon)=\left\{\boldsymbol{x}=x_{1} \cdots_{x_{N}} \mid H(X)-\varepsilon \leqslant I_{N}(\boldsymbol{x}) \leqslant H(X)+\boldsymbol{\varepsilon}\right\} TX(N,ε)={x=x1xNH(X)εIN(x)H(X)+ε}
为输出长度为 N N N ε \varepsilon ε - 典型序列集合,在N趋于无穷时,典型序列的出现概率趋于1.
推论:性质1: 若 x = x 1 x 2 ⋯ x N ∈ T X ( N , ε ) x=x_{1} x_{2} \cdots x_{N} \in T_{X}(N, \varepsilon) x=x1x2xNTX(N,ε), 则
2 − N ( H ( X ) + ϵ ) ⩽ p ( x ) ⩽ 2 − N ( H ( X ) − ε ) 2^{-N(H(X)+\epsilon)} \leqslant p(\boldsymbol{x}) \leqslant 2^{-N(H(X)-\varepsilon)} 2N(H(X)+ϵ)p(x)2N(H(X)ε),即 p ( x ) ≈ 2 − N H ( x ) . p(x) \approx 2^{-N H(x)} . p(x)2NH(x).
推论:性质2:当 N N N 足够大时, 典型序列数目 ∣ T X ( N , ε ) ∣ \left|T_{X}(N, \varepsilon)\right| TX(N,ε) 满足
( 1 − ε ) ⋅ 2 N ( H ( X ) − ε ) ⩽ ∣ T X ( N , ε ) ∣ ⩽ 2 N ( H ( X ) + ε ) ,  (1-\varepsilon) \cdot 2^{N(H(X)-\varepsilon)} \leqslant\left|T_{X}(N, \varepsilon)\right| \leqslant 2^{N(H(X)+\varepsilon)} \text {, } (1ε)2N(H(X)ε)TX(N,ε)2N(H(X)+ε)
记忆方法:由于每次取得典型序列的概率趋于1,因此典型序列的数量大约是每个典型序列出现概率的倒数
由此,得到关于无记忆信源的编码定理:
定长编码定理: 设离散无记忆信源 ( S , X ) (S,X) (S,X), 其熵 为 H ( X ) H(X) H(X), 被分成长为 N N N 的源字母组, 并用长为 M M M 的码字母组进行表示, 其 中, 码字母集 B = { b 1 , b 2 , ⋯   , b J } B=\left\{b_{1}, b_{2}, \cdots, b_{J}\right\} B={b1,b2,,bJ}. 则对任给的 ε > 0 \varepsilon>0 ε>0 δ > 0 \delta>0 δ>0, 只要 N N N 足 够大, 且满足不等式
M N log ⁡ J > H ( X ) + δ , \frac{M}{N} \log J>H(X)+\delta, NMlogJ>H(X)+δ,
则源字母组没有自己特定码字的概率 p e p_{e} pe 可以小于 ε \varepsilon ε.
定义: R = M N log ⁡ J R=\frac{M}{N} \log J R=NMlogJ 为编码速率或称码率, η = H ( X ) R \eta=\frac{H(X)}{R} η=RH(X)称为编码效率,通常小于1

离散无记忆信源的变长编码
字母表:有限集 A = { a 1 , . . . , a n } A=\{a_1,...,a_n\} A={a1,...,an},字符串: A ∗ A^* A,在A上的一个编码称为n元码
I = ( S , P ) \mathscr{I}=(S, P) I=(S,P) 为一个信源, C C C 为任一码. 称有序对 ( C , f ) (C, f) (C,f) 为一个编码规则, 如果 f : S → C f: S \rightarrow C f:SC 为一个单射. 我们称 f f f 为一个编码函数
在变长情形下,度量编码的好坏需要使用平均码长
Avelen ⁡ ( C , f ) = ∑ i = 1 n p ( s i ) len ⁡ ( f ( s i ) ) \operatorname{Avelen}(C, f)=\sum_{i=1}^{n} p\left(s_{i}\right) \operatorname{len}\left(f\left(s_{i}\right)\right) Avelen(C,f)=i=1np(si)len(f(si))
唯一可译码:称码 C C C 为唯一可译码, 如果当 c 1 , ⋯   , c k , d 1 , ⋯   , d j c_{1}, \cdots, c_{k}, d_{1}, \cdots, d_{j} c1,,ck,d1,,dj C C C 中码字, 并且有 c 1 ⋯ c k = d 1 ⋯ d j c_{1} \cdots c_{k}=d_{1} \cdots d_{j} c1ck=d1dj k = j k=j k=j c i = d i , ∀ i c_{i}=\boldsymbol{d}_{i}, \forall i ci=di,i.
前缀码:如果C中任意两个码都不互为前缀,则称为前缀码。特别的,前缀码是一种唯一可译码,而且即时可译
Kraft _McMillan 定理
(1) 如果 C C C 为一个 r r r 元唯一可译码, 其码字长度分别为 l 1 , l 2 , ⋯   , l n l_{1}, l_{2}, \cdots, l_{n} l1,l2,,ln, 则下列 K r a f t \mathrm{Kraft} Kraft 不等式必成立:
∑ k = 1 n 1 r l k ⩽ 1 \sum_{k=1}^{n} \frac{1}{r^{l_{k}}} \leqslant 1 k=1nrlk11
(2) 如果自然数 l 1 , l 2 , ⋯   , l n l_{1}, l_{2}, \cdots, l_{n} l1,l2,,ln r r r 满足 K r a f t \mathrm{Kraft} Kraft 不等式, 则必存在一个码字长度为 l 1 , l 2 , ⋯   , l n l_{1}, l_{2}, \cdots, l_{n} l1,l2,,ln r r r 元前缀码.
最优编码的构造
编码的最优性度量
对确定的概率分布 ( p 1 , p 2 , ⋯   , p n ) \left(p_{1}, p_{2}, \cdots, p_{n}\right) (p1,p2,,pn), r r r 元前缀码 ( c 1 , c 2 , ⋯   , c n ) \left(c_{1}, c_{2}, \cdots, c_{n}\right) (c1,c2,,cn) 称为最优编码, 如果Avelen ( c 1 , c 2 , ⋯   , c n ) = \left(c_{1}, c_{2}, \cdots, c_{n}\right)= (c1,c2,,cn)= MinAvelen ( p 1 ⋅ p 2 , ⋯   , p n ) \left(p_{1} \cdot p_{2}, \cdots, p_{n}\right) (p1p2,,pn)
编码和r进熵的关系
r进熵: H r ( p 1 , p 2 , ⋯   , p n ) = ∑ i = 1 n p i log ⁡ r 1 p i H_{r}\left(p_{1}, p_{2}, \cdots, p_{n}\right)=\sum_{i=1}^{n} p_{i} \log _{r} \frac{1}{p_{i}} Hr(p1,p2,,pn)=i=1npilogrpi1
定理:设 C = ( c 1 , c 2 , ⋯   , c n ) C=\left(c_{1}, c_{2}, \cdots, c_{n}\right) C=(c1,c2,,cn) 为概率分布 P = ( p 1 , p 2 , ⋯   , p n ) P=\left(p_{1}, p_{2}, \cdots, p_{n}\right) P=(p1,p2,,pn) 下 的一个唯一可译码, 则 H r ⩽ Avelen ⁡ H_{r} \leqslant \operatorname{Avelen} HrAvelen
等式成立的充要条件是: ∀ i , len ⁡ ( c i ) = log ⁡ r 1 p i \forall i, \operatorname{len}\left(c_{i}\right)=\log _{r} \frac{1}{p_{i}} i,len(ci)=logrpi1.
无噪声编码定理:
H r ⩽  MinAvelen  < H r + 1 H_{r} \leqslant \text { MinAvelen }<H_{r}+1 Hr MinAvelen <Hr+1
Huffman编码
编码方法:假设编码符号集为 A = { a 1 , . . . , a r } A=\{a_1,...,a_r\} A={a1,...,ar},信源 X = { x 1 , . . . , x n ; p 1 , . . . , p n } X=\{x_1,...,x_n;p_1,...,p_n\} X={x1,...,xn;p1,...,pn},则第一次合并 n − 2 m o d    ( r − 1 ) + 2 n-2\mod (r-1)+2 n2mod(r1)+2个编码,之后每次合成 r r r个编码即可。每次合成都取当前概率值最少的集合,然后为其在前面添加符号集从前到后的若干个编码
性质:Huffman编码是一种最优编码
推论: H r ⩽ A v g l e n ( Huffman ) < H r + 1 H_{r} \leqslant Avglen(\text{Huffman}) <H_{r}+1 HrAvglen(Huffman)<Hr+1
后面的均为二进制编码
Shannon编码
对于信源: p 1 ≥ p 2 ≥ . . . ≥ p n p_1\geq p_2\geq... \geq p_n p1p2...pn:
q k = ∑ i = 1 k − 1 p i q_{k}=\sum_{i=1}^{k-1} p_{i} qk=i=1k1pi. l k = ⌈ log ⁡ p k ⌉ l_{k}= \lceil \log p_k \rceil lk=logpk. 用 l k l_{k} lk 个 bit 来表示 q k q_{k} qk:将 q k q_{k} qk 按二进制小数展开到 l k l_{k} lk 位截断
性质: H r ⩽ A v g l e n ( Shannon ) < H r + 1 H_{r} \leqslant Avglen(\text{Shannon}) <H_{r}+1 HrAvglen(Shannon)<Hr+1,但不是最优编码
Fano编码
对于信源: p 1 ≥ p 2 ≥ . . . ≥ p n p_1\geq p_2\geq... \geq p_n p1p2...pn:每次将每组概率尽可能分成等概率的两个连续组,并且分别赋予0/1,直到每个组都只剩下一个概率为止
性质: A v g l e n ( Fano ) ≤ H r + 2 Avglen(\text{Fano})\leq H_{r}+2 Avglen(Fano)Hr+2,不是最优编码
S-F-E编码
对于信源: p 1 , p 2 , . . . , p n p_1, p_2,... ,p_n p1,p2,...,pn:注意, 我们并没有对信源按概率大小进行排序. 记:
F ˉ ( k ) = ∑ i < k p ( i ) + 1 2 p ( k ) , 1 ⩽ k ⩽ n , F ( k ) = ∑ i ⩽ k p ( i ) , 1 ⩽ k ⩽ n \begin{aligned} &\bar{F}(k)=\sum_{i<k} p(i)+\frac{1}{2} p(k), \quad 1 \leqslant k \leqslant n, \\ &F(k)=\sum_{i \leqslant k} p(i), \quad 1 \leqslant k \leqslant n \end{aligned} Fˉ(k)=i<kp(i)+21p(k),1kn,F(k)=ikp(i),1kn
为累积概率分布, F ˉ ( k ) < F ( k ) \bar{F}(k)<F(k) Fˉ(k)<F(k),二者均单调增加, 易见
F ˉ ( k ) ⩽ F ( k ) ⩽ F ˉ ( k + 1 ) . \bar{F}(k) \leqslant F(k) \leqslant \bar{F}(k+1) . Fˉ(k)F(k)Fˉ(k+1).
l k = ⌈ log ⁡ p k ⌉ + 1 l_{k}= \lceil \log p_k \rceil+1 lk=logpk+1. 用 l k l_{k} lk 个 bit 来表示 F ˉ k \bar{F}_{k} Fˉk,即可得到S-F-E编码
性质: A v g l e n ( S-F-E ) ≤ H r + 2 Avglen(\text{S-F-E})\leq H_{r}+2 Avglen(S-F-E)Hr+2,不是最优编码
离散平稳信源的编码
信 源 { 有 记 忆 信 源 ( 输 出 信 号 序 列 间 不 独 立 ) 无 记 忆 信 源 { 简 单 信 源 ( 独 立 同 分 布 序 列 ) 其 它 信源 \{ \begin{aligned}&有记忆信源(输出信号序列间不独立)\\ &无记忆信源 \{\begin{aligned} &简单信源(独立同分布序列)\\ &其它\end{aligned} \end{aligned} {{
平稳信源
对任意的 N N N, 连续N个信号的概率分布与起点无关, 即 P ( X 1 = x i 1 , ⋯   , X N = x i N ) = P ( X L + 1 = x i 1 , ⋯   , X L + N = x i N ) P\left(X_{1}=x_{i_{1}}, \cdots,X_{N}=x_{i_{N}}\right)=P\left(X_{L+1}=x_{i_{1}}, \cdots,X_{L+N}=x_{i _N}\right) P(X1=xi1,,XN=xiN)=P(XL+1=xi1,,XL+N=xiN)
性质1:从任意时间起点出发,得到的序列性质相同
定义信号的平均熵为: H N ( X ) = 1 N H ( X 1 , X 2 , ⋯   , X N ) H_{N}(\boldsymbol{X})=\frac{1}{N} H\left(X_{1}, X_{2}, \cdots, X_{N}\right) HN(X)=N1H(X1,X2,,XN)
性质2:
(1) H ( X N ∣ X 1 , ⋯   , X N − 1 ) H\left(X_{N} \mid X_{1}, \cdots, X_{N-1}\right) H(XNX1,,XN1) 关于N单调减少;
(2) ∀ N , H N ( X ) ⩾ H ( X N ∣ X 1 , ⋯   , X N − 1 ) \forall N, H_{N}(\boldsymbol{X}) \geqslant H\left(X_{N} \mid X_{1}, \cdots, X_{N-1}\right) N,HN(X)H(XNX1,,XN1);
(3) H N ( X ) H_{N}(\boldsymbol{X}) HN(X) 关于N单调减少;
(4) lim ⁡ N → ∞ H N ( X ) = lim ⁡ N → ∞ H ( X N ∣ X 1 , ⋯   , X N − 1 ) \lim _{N \rightarrow \infty} H_{N}(\boldsymbol{X})=\lim _{N \rightarrow \infty} H\left(X_{N} \mid X_{1}, \cdots, X_{N-1}\right) limNHN(X)=limNH(XNX1,,XN1)
性质3:根据性质2,以下极限必定存在:
H ∞ ( X ) = lim ⁡ N → ∞ H N ( X ) H_{\infty}(\boldsymbol{X})=\lim _{N \rightarrow \infty} H_{N}(\boldsymbol{X}) H(X)=limNHN(X) H ∞ ( X ) H_{\infty}(\boldsymbol{X}) H(X)称为信源X的熵率
冗余度 : log ⁡ K − H ∞ ( X ) \log K-H_{\infty}(\boldsymbol{X}) logKH(X),
相对冗余度 : 1 − H ∞ ( X ) log ⁡ K 1-\frac{H_{\infty}(\boldsymbol{X})}{\log K} 1logKH(X) H ( X ) log ⁡ K \frac{H(\boldsymbol{X})}{\log K} logKH(X)称为熵率.
性质4:对于离散平稳信源 ( X 1 X 2 ⋯ X L ; p ( x ) ) \left(X_{1} X_{2} \cdots X_{L} ; p(x)\right) (X1X2XL;p(x)) 进行 D D D 元变长编码. ∀ ε > 0 \forall \varepsilon>0 ε>0, 则 ∃ L ( ε ) \exists L(\varepsilon) L(ε), 使得当 L > L ( ε ) L>L(\varepsilon) L>L(ε) 时, 存在唯一可译码, 使得平均每个信源符号所需码字的平均长度满足:
H ∞ ( X ) log ⁡ D ⩽ n ˉ ⩽ H ∞ ( X ) log ⁡ D + ε . \frac{H_{\infty}(\boldsymbol{X})}{\log D} \leqslant \bar{n} \leqslant \frac{H_{\infty}(\boldsymbol{X})}{\log D}+\varepsilon . logDH(X)nˉlogDH(X)+ε.
马尔可夫信源
马尔可夫序列: P ( X n + 1 = x n + 1 ∣ X n = x n , ⋯   , X 1 = x 1 ) = P ( X n + 1 = x n + 1 ∣ X n = x n ) \begin{aligned} P\left(X_{n+1}\right.&\left.=x_{n+1} \mid X_{n}=x_{n}, \cdots, X_{1}=x_{1}\right) \\ &=P\left(X_{n+1}=x_{n+1} \mid X_{n}=x_{n}\right) \end{aligned} P(Xn+1=xn+1Xn=xn,,X1=x1)=P(Xn+1=xn+1Xn=xn)
马尔可夫信源:符号集+状态集:每次发出符号后状态会改变。满足以下条件的信源称为马尔可夫信源:
(1)某一时刻信源符号的输出只与当前的信源状态有关, 而与之前的状态无关, 即 P ( x l = a k ∣ u l = s j , x l − 1 = a k , u l − 1 = s i , ⋯   ) = P ( x l = a k ∣ u l = s j ) P\left(x_{l}=a_{k} \mid u_{l}=s_{j}, x_{l-1}=a_{k}, u_{l-1}=s_{i}, \cdots\right)=P\left(x_{l}=a_{k} \mid u_{l}=s_{j}\right) P(xl=akul=sj,xl1=ak,ul1=si,)=P(xl=akul=sj)
(2) 信源状态只由当前输出符号和前一时刻信源状态唯一确定, 即
P ( u l = s i ∣ x 1 = a k , u 1 − 1 = s j ) = { 1 0 } P\left(u_{l}=s_{i} \mid x_{1}=a_{k}, u_{1-1}=s_{j}\right)=\left\{\begin{array}{l} 1 \\ 0 \end{array}\right\} P(ul=six1=ak,u11=sj)={10}
马尔可夫在状态转移矩阵P下的不变分布称为稳态分布。
在给定信源状态 S = j S=j S=j 之下的条件熵为 H ( X ∣ S = j ) = − ∑ K p j ( a k ) log ⁡ p j ( a k ) H(\boldsymbol{X} \mid S=j)=-\sum^{K} p_{j}\left(a_{k}\right) \log p_{j}\left(a_{k}\right) H(XS=j)=Kpj(ak)logpj(ak)
信源熵为: H = H ( X ∣ S ) = ∑ j = 1 j P ( S = j ) H ( X ∣ S = j ) H=H(\boldsymbol{X} \mid S)=\sum_{j=1}^{j} P(S=j) H(\boldsymbol{X} \mid S=j) H=H(XS)=j=1jP(S=j)H(XS=j)
性质1:马尔可夫信源的熵率: H ∞ ( X ) = H ( X ∣ S ) H_{\infty}(\boldsymbol{X})=H(\boldsymbol{X} \mid S) H(X)=H(XS)
性质2:马尔可夫信源的变长编码定理:当用 J J J 个字母的码字母表对墒率为 H ∞ ( X ) H_{\infty}(\boldsymbol{X}) H(X) 的离散马尔可夫信源进行变长编码时, 其平均码长 l ˉ \bar{l} lˉ 满 足:
H ∞ ( X ) log ⁡ J ⩽ l ˉ ⩽ H ∞ ( X ) log ⁡ J + 1 N , \frac{H_{\infty}(\boldsymbol{X})}{\log J} \leqslant \bar{l} \leqslant \frac{H_{\infty}(\boldsymbol{X})}{\log J}+\frac{1}{N}, logJH(X)lˉlogJH(X)+N1,
其中 N N N 为信源字母分组的长度.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值