【计算机科学与技术】信息论笔记:合集

200804本篇是《信息论》的读书笔记,欢迎各位路过指正!今天十章全部更新完毕啦。

0.分章节目录

1. 熵、相对熵与互信息

1.1 绪论与概述

  • 香农(C.E.Shannon) 于1948年发表论文 “通信的数学理论” 奠定了信息论的基础。

  • 香农第一定理(无失真信源编码定理):给出编码极限。

  • 香农第二定理(有噪信道编码定理):传输速率小于信道容量,则误码率可以任意小。

  • 香农第三定理(保失真度准则下的有失真信源编码定理):给定失真度,只要码字足够长,就可以使编码的失真度小于给定失真度。

1.2 熵

  • 的定义:

H ( X ) = H ( p 1 , p 2 , ⋯   , p K ) = − ∑ n = 1 K p n log ⁡ p n H(X)=H\left(p_{1}, p_{2}, \cdots, p_{K}\right)=-\sum_{n=1}^{K} p_{n} \log p_{n} H(X)=H(p1,p2,,pK)=n=1Kpnlogpn

  • 一元信源模型

[ X p ( x ) ] = [ a 1 a 2 ⋯ a K p ( a 1 ) p ( a 2 ) ⋯ p ( a K ) ] \left[\begin{array}{c}X \\ p(x)\end{array}\right]=\left[\begin{array}{cccc}a_{1} & a_{2} & \cdots & a_{K} \\ p\left(a_{1}\right) & p\left(a_{2}\right) & \cdots & p\left(a_{K}\right)\end{array}\right] [Xp(x)]=[a1p(a1)a2p(a2)aKp(aK)]

0 ≤ p n ≤ 1 0 \leq p_n \leq 1 0pn1 ∑ n = 1 K p n = 1 \sum_{n=1}^K p_n = 1 n=1Kpn=1。若 X ∼ p ( x ) X\sim p(x) Xp(x),则随机变量 g ( X ) g(X) g(X)的期望为 E [ g ( x ) ] = ∑ g ( x ) p ( x ) E[g(x)]=\sum g(x)p(x) E[g(x)]=g(x)p(x)。随机变量 X X X的熵可看为随机变量 l o g ( 1 / p ( X ) ) log(1/p(X)) log(1/p(X))的数学期望,其中 p ( x ) p(x) p(x) X X X的概率密度函数。

  • 熵函数应符合下面三条公理:(1)对称性:交换下标不影响熵值。(2)最大值:等概分布熵值最大。(3)若 p K = p 11 + . . . + p 1 i p_K = p_{11} + ... + p_{1i} pK=p11+...+p1i则两个分布有如下关系:

H ( p 1 , p 2 , ⋯   , p K − 1 , p 11 , p 12 , ⋯   , p 1 l ) = H ( p 1 , p 2 , ⋯   , p k ) + p k H ( p 11 p K , p 12 p K , ⋯   , p 1 i p K ) H\left(p_{1}, p_{2}, \cdots, p_{K-1}, p_{11}, p_{12}, \cdots, p_{1 l}\right)=H\left(p_{1}, p_{2}, \cdots, p_{k}\right)+p_{k} H\left(\frac{p_{11}}{p_{K}}, \frac{p_{12}}{p_{K}}, \cdots, \frac{p_{1 i}}{p_{K}}\right) H(p1,p2,,pK1,p11,p12,,p1l)=H(p1,p2,,pk)+pkH(pKp11,pKp12,,pKp1i)

  • 熵的含义:(1)平均意义:熵是整个集合的统计特性。(2)信息熵: H ( X ) H(X) H(X)表示每个消息提供的平均信息量。(3)随机性:信息熵 H ( X ) H(X) H(X)表征了变量X的随机性。

  • 熵的链式法则:
    H ( X 1 , X 2 , ⋯   , X n ) = ∑ i = 1 n H ( X i ∣ X i − 1 , ⋯   , X 1 ) H\left(X_{1}, X_{2}, \cdots, X_{n}\right)=\sum_{i=1}^{n} H\left(X_{i} \mid X_{i-1}, \cdots, X_{1}\right) H(X1,X2,,Xn)=i=1nH(XiXi1,,X1)

1.3 联合熵

  • 二元信源模型
    [ X Y p ( X Y ) ] = [ a 1 b 1 a 1 b 2 a 1 b 3 … a k b J p ( a 1 , b 1 ) p ( a 1 , b 2 ) p ( a 1 , b 3 ) … p ( a K , b J ) ] \left[\begin{array}{c}X Y \\ p(X Y)\end{array}\right]=\left[\begin{array}{cccc}a_{1} b_{1} & a_{1} b_{2} & a_{1} b_{3} & \ldots & a_{k} b_{J} \\ p\left(a_{1}, b_{1}\right) & p\left(a_{1}, b_{2}\right) & p\left(a_{1}, b_{3}\right) & \ldots & p\left(a_{K}, b_{J}\right)\end{array}\right] [XYp(XY)]=[a1b1p(a1,b1)a1b2p(a1,b2)a1b3p(a1,b3)akbJp(aK,bJ)]

其中 ∑ k = 1 K ∑ j = 1 J p ( a k , b j ) = 1 \sum_{k=1}^K \sum_{j=1}^J p (a_k,b_j) = 1 k=1Kj=1Jp(ak,bj)=1

  • 联合熵的定义:
    H ( X , Y ) = − ∑ k = 1 K ∑ j = 1 J p ( a k , b j ) log ⁡ p ( a k , b j ) = − E [ log ⁡ p ( X , Y ) ] H(X, Y)=-\sum_{k=1}^{K} \sum_{j=1}^{J} p\left(a_{k}, b_{j}\right) \log p\left(a_{k}, b_{j}\right)=-E[\log p(X,Y)] H(X,Y)=k=1Kj=1Jp(ak,bj)logp(ak,bj)=E[logp(X,Y)]

若独立,则联合熵等于单个随机变量熵之和;条件熵等于无条件熵(绝对熵)。

  • 有等式

H ( X , Y ) = H ( X ) + H ( Y ∣ X ) = H ( Y ) + H ( X ∣ Y ) H(X,Y) = H(X) + H(Y | X) =H(Y) + H(X | Y) H(X,Y)=H(X)+H(YX)=H(Y)+H(XY)

1.4 条件熵

  • 条件熵的定义:

H ( Y ∣ X ) = − ∑ k = 1 K ∑ j = 1 J p ( a k , b j ) log ⁡ p ( b j ∣ a k ) H(Y|X) = -\sum_{k=1}^K \sum_{j=1}^J p(a_k,b_j)\log p(b_j|a_k) H(YX)=k=1Kj=1Jp(ak,bj)logp(bjak)

  • 条件熵链式法则:

H ( X , Y ∣ Z ) = H ( X ∣ Z ) + H ( Y ∣ X , Z ) H(X,Y|Z) = H(X|Z) + H(Y | X,Z) H(X,YZ)=H(XZ)+H(YX,Z)

  • 确定关系:若 X X X Y Y Y有确定的函数关系,且 X X X可以完全确定 Y Y Y(或 Y Y Y完全确定 X X X),则 H ( Y ∣ X ) = H ( X ∣ Y ) = 0 H(Y|X) = H(X|Y) = 0 H(YX)=H(XY)=0

  • 条件熵不大于绝对熵是平均意义下的结论。

1.5 相对熵

  • 相对熵(Kullback熵) :两个随机分布之间距离的度量。
    D ( p ∣ ∣ q ) = ∑ k = 1 K p ( a k ) log ⁡ p ( a k ) q ( a k ) D(p||q) = \sum_{k=1}^Kp(a_k)\log\frac{p(a_k)}{q(a_k)} D(pq)=k=1Kp(ak)logq(ak)p(ak)

  • 条件相对熵:一对随机变量的两个联合分布之间的相对熵可以展开为相对熵和条件相对熵之和。

D ( p ( y ∣ x ) ∥ q ( y ∣ x ) ) = ∑ x p ( x ) ∑ y p ( y ∣ x ) log ⁡ p ( y ∣ x ) q ( y ∣ x ) = E p ( x , y ) log ⁡ p ( Y ∣ X ) q ( Y ∣ X ) D(p(y \mid x) \| q(y \mid x))=\sum_{x} p(x) \sum_{y} p(y \mid x) \log \frac{p(y \mid x)}{q(y \mid x)}=E_{p(x, y)} \log \frac{p(Y \mid X)}{q(Y \mid X)} D(p(yx)q(yx))=xp(x)yp(yx)logq(yx)p(yx)=Ep(x,y)logq(YX)p(YX)

  • 相对熵的链式法则:
    D ( p ( x , y ) ∥ q ( x , y ) ) = D ( p ( x ) ∥ q ( x ) ) + D ( p ( y ∣ x ) ∥ q ( y ∣ x ) ) D(p(x, y) \| q(x, y))=D(p(x) \| q(x))+D(p(y \mid x) \| q(y \mid x)) D(p(x,y)q(x,y))=D(p(x)q(x))+D(p(yx)q(yx))

1.6 互信息

  • 互信息的定义:
    I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) = H ( Y ) − H ( Y ∣ X ) = I ( Y ; X ) I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) = I(Y;X) I(X;Y)=H(X)H(XY)=H(Y)H(YX)=I(Y;X)
    也可以采用直接定义 X X X Y Y Y之间的互信息为
    I ( X ; Y ) = ∑ k = 1 K ∑ j = 1 J p ( a k , b j ) log ⁡ p ( a k , b j ) p ( a k ) p ( b j ) I(X ; Y)=\sum_{k=1}^{K} \sum_{j=1}^{J} p\left(a_{k}, b_{j}\right) \log \frac{p\left(a_{k}, b_{j}\right)}{p\left(a_{k}\right) p\left(b_{j}\right)} I(X;Y)=k=1Kj=1Jp(ak,bj)logp(ak)p(bj)p(ak,bj)

  • 熵与互信息的关系:互信息是随机变量之间相互依存度的度量信息。

  • 单个互信息物理意义: Y = b j Y=b_j Y=bj下获得的 X = a k X=a_k X=ak的信息量,互信息 I ( X ; Y ) I(X;Y) I(X;Y)为单个互信息的均值。

  • 熵可由互信息导出。自信息的数学期望就是信息熵 H ( X ) = E [ I ( a k , a k ) ] = E [ H ( a k ) ] H(X) = E[I(a_k,a_k)]=E[H(a_k)] H(X)=E[I(ak,ak)]=E[H(ak)]

  • 条件互信息:给定随机变量 Z Z Z时,由 Y Y Y的信息而获得的关于 X X X的信息
    I ( X ; Y ∣ Z ) = H ( X ∣ Z ) − H ( X ∣ Y , Z ) = ∑ k = 1 K ∑ j = 1 J ∑ l = 1 L p ( a k , b j , c i ) log ⁡ p ( a k , b j ∣ c i ) p ( a k ∣ c i ) p ( b j ∣ c i ) I(X ; Y \mid Z)=H(X \mid Z)-H(X \mid Y, Z)=\sum_{k=1}^{K} \sum_{j=1}^{J} \sum_{l=1}^{L} p\left(a_{k}, b_{j}, c_{i}\right) \log \frac{p\left(a_{k}, b_{j} \mid c_{i}\right)}{p\left(a_{k} \mid c_{i}\right) p\left(b_{j} \mid c_{i}\right)} I(X;YZ)=H(XZ)H(XY,Z)=k=1Kj=1Jl=1Lp(ak,bj,ci)logp(akci)p(bjci)p(ak,bjci)

  • 互信息的链式法则:
    I ( X 1 , X 2 , ⋯   , X n ; Y ) = ∑ i = 1 n I ( X i ; Y ∣ X i − 1 , ⋯   , X 1 ) I\left(X_{1}, X_{2}, \cdots, X_{n} ; Y\right)=\sum_{i=1}^{n} I\left(X_{i} ; Y \mid X_{i-1}, \cdots, X_{1}\right) I(X1,X2,,Xn;Y)=i=1nI(Xi;YXi1,,X1)

1.7 Jensen不等式

  • Jensen不等式:设函数 f ( x ) f(x) f(x)是凸域 D D D上的下凸函数,则对任意 a m ∈ D a_m \in D amD 0 ≤ λ m ≤ 1 , λ 1 + . . . + λ M = 1 0\leq \lambda_m \leq 1, \lambda_1+ ... + \lambda_M = 1 0λm1,λ1+...+λM=1
    f ( ∑ m = 1 M λ m α m ) ≤ ∑ m = 1 M λ m f ( α n ) f\left(\sum_{m=1}^{M} \lambda_{m} \alpha_{m}\right) \leq \sum_{m=1}^{M} \lambda_{m} f\left(\alpha_{n}\right) f(m=1Mλmαm)m=1Mλmf(αn)

  • 信息不等式:两个概率密度函数为 p ( x ) p(x) p(x) q ( x ) q(x) q(x)之间的鉴别信息为 D ( p ∣ ∣ q ) D(p||q) D(pq),则: D ( p ∣ ∣ q ) ≥ 0 D(p||q) \geq 0 D(pq)0,当且仅当对任意的 x x x p ( x ) = q ( x ) p(x)=q(x) p(x)=q(x),等号成立。

  • 推论:
    I ( X ; Y ) ≥ 0 I ( X ; Y ∣ Z ) ≥ 0 D ( p ( y ∣ x ) ∣ ∣ q ( y ∣ x ) ) ≥ 0 I(X;Y) \geq 0\\ I(X;Y|Z) \geq 0\\ D(p(y|x)||q(y|x))\geq 0 I(X;Y)0I(X;YZ)0D(p(yx)q(yx))0
    H ( X ) ≤ l o g ∣ X ∣ H(X)\leq log|X| H(X)logX,其中 ∣ X ∣ |X| X表示 X X X的字母表 X X X中元素的个数,当且仅当 X X X服从 X X X上的均匀分布时,等号成立。

  • 意义:在平均意义下,信源的不确定性减少。
    H ( X ) ≥ H ( X ∣ Y ) H ( X ) \geq H ( X | Y ) H(X)H(XY)

  • 熵的独立界:当且仅当 X i X_i Xi相互独立,等号成立。熵函数为上凸函数。
    H ( X 1 , X 2 , ⋯   , X n ) ≤ ∑ i = 1 n H ( X i ) H\left(X_{1}, X_{2}, \cdots, X_{n}\right) \leq \sum_{i=1}^{n} H\left(X_{i}\right) H(X1,X2,,Xn)i=1nH(Xi)

  • 定理:互信息为信源概率分布的上凸函数;互信息为信道矩阵的下凸函数。

1.8 对数和不等式

  • 上面的等式中假设信源概率分布为 p : p ( a k ) p:p(a_k) p:p(ak)。互信息由概率分布和条件概率矩阵确定。记为 Q : p ( b j ∣ a k ) Q:p(b_j|a_k) Q:p(bjak) Q Q Q有时也称为信道转移概率矩阵。互信息可记为 I ( p , Q ) I ( p, Q ) I(p,Q)
  • 对数和不等式:对于非负数 a 1 , a 2 , … , a n a_1, a_2, …,a_n a1,a2,,an b 1 , b 2 , … , b n b_1, b_2, …,b_n b1,b2,,bn,当且仅当 a i b i \frac{a_i}{b_i} biai为常数时,等号成立 。
    ∑ i = 1 n a i log ⁡ a i b i ≥ ( ∑ i = 1 n a i ) log ⁡ ( ∑ i = 1 n a i / ∑ i = 1 n b i ) \sum_{i=1}^{n} a_{i} \log \frac{a_{i}}{b_{i}} \geq\left(\sum_{i=1}^{n} a_{i}\right) \log \left(\sum_{i=1}^{n} a_{i} / \sum_{i=1}^{n} b_{i}\right) i=1nailogbiai(i=1nai)log(i=1nai/i=1nbi)
  • 相对熵的下凸性 D ( p ∣ ∣ q ) D(p||q) D(pq)关于对 ( p , q ) (p,q) (p,q)是下凸的。

1.9 数据处理不等式

  • 数据处理不等式:数据处理都会损失信息。 X → Y → Z X\to Y\to Z XYZ构成Markov链,则
    I ( X ; Y ) ≥ I ( X ; Z ) I(X;Y)\geq I(X;Z) I(X;Y)I(X;Z)

  • 费诺不等式:定义误差概率为 P e = P r { X ^ ≠ X } P_e = Pr\{\hat{X} \neq X\} Pe=Pr{X^=X}。则对任何满足 X → Y → X ^ X\to Y\to \hat{X} XYX^的估计量 X ^ \hat{X} X^,有
    H ( P e ) + P e log ⁡ ∣ X ∣ ≥ H ( X ∣ X ^ ) ≥ H ( X ∣ Y ) 1 + P e log ⁡ ∣ X ∣ ≥ H ( X ∣ Y ) H\left(P_{\mathrm{e}}\right)+P_{\mathrm{e}} \log |\boldsymbol{X}| \geq H(X \mid \hat{X}) \geq H(X \mid Y)\\ 1+P_{\mathrm{e}} \log |\boldsymbol{X}| \geq H(X \mid Y) H(Pe)+PelogXH(XX^)H(XY)1+PelogXH(XY)

  • 意义:假定没有任何关于 Y Y Y的知识,只能在毫无信息的情况下对 X X X进行推测。 X ∈ { 1 , 2 , … , K } X\in \{1,2,…,K\} X{1,2,,K} p 1 ≥ p 2 ≥ … ≥ p K p_1\geq p_2 \geq …\geq p_K p1p2pK则对 X X X的最佳估计是 X ^ = 1 \hat{X}=1 X^=1,而此时产生的误差概率为 P e = 1 − p 1 P_e=1-p_1 Pe=1p1

  • 误差概率与熵之间的不等式:设 X X X X ’ X’ X为两个独立同分布的随机变量,有相同的熵 H ( X ) H(X) H(X),那么 X = X ′ X=X' X=X的概率为

Pr ⁡ ( X = X ′ ) = ∑ p 2 ( x ) \operatorname{Pr}\left(X=X^{\prime}\right)=\sum p^{2}(x) Pr(X=X)=p2(x)

2. 渐进均分性

2.1 渐进均分性定理

  • 信息符号冗余度:冗余度高,符号携带的信息率低,易于压缩;

  • 信源的冗余编码:提高单个信息符号所携带的信息量。

  • 渐进等同分割性(Asymptotic Equipartition Property)结论:信源分布等概,信息熵最大。

  • 定理2.1.1(渐进均分性):设 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn 是概率密度函数为p(x)的独立同分布(i.i.d)的随机变量,则
    − 1 n log ⁡ p ( X 1 , X 2 , ⋯   , X n ) → H ( X ) -\frac{1}{n} \log p\left(X_{1}, X_{2}, \cdots, X_{n}\right) \rightarrow H(X) n1logp(X1,X2,,Xn)H(X)

  • 直观解释:当序列足够长时,一部分序列就显现出这样的性质:**序列中各个符号的出现频数非常接近于各自的出现概率,而这些序列的概率则趋近于相等,且它们的和非常接近于1,这些序列就称为典型序列。**其余的非典型序列的出现概率之和接近于零。

香农在1948年的《通信的数学理论》中注意到它并表述为一个定理。后来麦克米伦在1953年发表的《信息论的基本定理》一文中严格地证明了这一结果。

  • 定义2.1.1(典型集):设 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn 是概率密度函数为 p ( x ) p(x) p(x)的i.i.d随机序列,如果联合分布 p ( x 1 , x 2 , … , x n ) p(x_1, x_2,… ,x_n) p(x1,x2,,xn)满足下列条件:
    ∣ log ⁡ p ( x 1 , x 2 , ⋯   , x n ) n + H ( X ) ∣ ≤ ε \left|\frac{\log p\left(x_{1}, x_{2}, \cdots, x_{n}\right)}{n}+H(X)\right| \leq \varepsilon nlogp(x1,x2,,xn)+H(X)ε
    则称该源字母序列为典型序列(典型集),记为 A ε ( n ) A_\varepsilon^{(n)} Aε(n)

  • 直观意义:(1)给定特定的误差范围ε和序列长 n n n离散无记忆信源输出序列的集中程度;(2)若固定 ε ε ε n n n越大,典型序列中元素个数越多;(3)若固定 n n n ε ε ε越大,典型序列中元素个数越多;(4)典型序列中的序列趋于等概。

  • 定理2.1.2(典型集性质):(1)设 ( x 1 , x 2 , . . . , x n ) ∈ A ε ( n ) (x_1,x_2,...,x_n)\in A_\varepsilon^{(n)} (x1,x2,...,xn)Aε(n)则有: H ( X ) − ε ≤ − 1 n log ⁡ p ( x 1 , x 2 , ⋯   , x n ) ≤ H ( X ) + ε H(X)-\varepsilon \leq-\frac{1}{n} \log p\left(x_{1}, x_{2}, \cdots, x_{n}\right) \leq H(X)+\varepsilon H(X)εn1logp(x1,x2,,xn)H(X)+ε
    (2).当 n n n充分大时, P r { A ε ( n ) } > 1 − ε Pr\{A_\varepsilon^{(n)}\}>1-\varepsilon Pr{Aε(n)}>1ε
    (3). ∣ A ε ( n ) ∣ ⩽ 2 n ( H ( X ) + ε ) |A_\varepsilon^{(n)}|\leqslant 2^{n(H(X)+\varepsilon)} Aε(n)2n(H(X)+ε)
    (4).当 n n n充分大时, ∣ A ε ( n ) ∣ ⩾ ( 1 − ε ) 2 n ( H ( X ) + ε ) |A_\varepsilon^{(n)}|\geqslant (1-\varepsilon)2^{n(H(X)+\varepsilon)} Aε(n)(1ε)2n(H(X)+ε)

2.2 数据压缩

  • 数据压缩:将集合元素按某种顺序(比如字典序)排列,指定下标可表示 A ε ( n ) A_\varepsilon^{(n)} Aε(n)中的每个序列。这需要 n ( H + ε ) + 1 n(H+\varepsilon)+1 n(H+ε)+1个比特,编码前加0,共需 n ( H + ε ) + 2 n(H+\varepsilon)+2 n(H+ε)+2个比特。对不属于 A ε ( n ) A_\varepsilon^{(n)} Aε(n)编码,比特数 n log ⁡ ∣ X ∣ + 1 n\log|X|+1 nlogX+1,编码前加1。

  • 编码特点:一一映射,易于译码;第一个比特标明了编码长度;非典序列枚举扩大编码范围;典型序列编码长度为 n H nH nH。分组编码作用:编码效率接近理想。

  • 定理2.2.1(平均码长编码定理):设 X n X^n Xn为服从 p ( x ) p(x) p(x)的i.i.d序列, ε > 0 ε>0 ε>0,则存在一个编码将长度为 n n n的序列 x n x_n xn映射为比特串,使得其为一一映射,(因而可逆),且对于充分大的 n n n,有
    E [ 1 n l ( X n ) ] ≤ H ( X ) + ε E\left[\frac{1}{n} l\left(X^{n}\right)\right] \leq H(X)+\varepsilon E[n1l(Xn)]H(X)+ε
    于是平均意义上用 n H ( X ) nH(X) nH(X)可以表示序列 X n X^n Xn

2.3 高概率集与典型集

  • 定义2.3.1(最小集): 对每个 n = 1 , 2 , … n=1,2,… n=12,设 B δ ( n ) ⊂ X n B_\delta^{(n)}\sub X^n Bδ(n)Xn 为满足 P r ( B δ ( n ) ) > 1 − δ Pr(B_\delta^{(n)})>1-\delta Pr(Bδ(n))>1δ的最小集。

  • 定理2.3.1: 设 X 1 , X 2 , … , X n X_1,X_2,…,X_n X1,X2,,Xn为服从概率密度函数 p ( x ) p(x) p(x)的i.i.d.随机变量序列。对 δ < 1 / 2 δ<1/2 δ<1/2及任意 δ > 0 δ>0 δ>0,如果 P r ( B δ ( n ) ) > 1 − δ Pr(B_\delta^{(n)})>1-\delta Pr(Bδ(n))>1δ,则当 n n n充分大时,
    1 n log ⁡ ∣ B δ ( n ) ∣ > H − δ ′ \frac{1}{n} \log \left|\boldsymbol{B}_{\delta}^{(n)}\right|>H-\delta^{\prime} n1logBδ(n)>Hδ
    意义:即在一阶指数意义下, B δ n ( n ) \boldsymbol{B}_{\delta_{n}}^{(n)} Bδn(n)至少含有 2 n H 2^{nH} 2nH个元素。

  • 定义2.3.2:记号 a n ≐ b n a_{n} \doteq b_{n} anbn表示 lim ⁡ n → ∞ 1 n log ⁡ ∣ b n a n ∣ = 0 \lim_{n\to \infty}\frac{1}{n}\log |\frac{b_n}{a_n}|=0 limnn1loganbn=0也就是在一阶指数意义下相等。

  • 最小集性质:如果 δ n → 0 \delta_n \to 0 δn0 ε n → 0 \varepsilon_n \to 0 εn0 ∣ B δ n ( n ) ∣ ≐ ∣ A ε n ( n ) ∣ ≐ 2 n H \left|\boldsymbol{B}_{\delta_{n}}^{(n)}\right| \doteq\left|\boldsymbol{A}_{\varepsilon_{n}}^{(n)}\right| \doteq 2^{n H} Bδn(n)Aεn(n)2nH

3. 随机过程的熵率

3.1 马尔科夫链

本章马尔可夫链基础知识略过。

  • 本章内容表明:熵 H ( X 1 , X 2 , … X n ) H(X_1, X_2, …X_n) H(X1,X2,Xn) n n n以速率 H ( X ) H(\mathcal{X}) H(X)(渐近地)线性增加,这个速率称为熵率

  • 信源:

    • 离散无记忆信源(简单):各符号之间相互独立,各个符号的出现概率是它自身的先验概率 。

    • 一般平稳信源(复杂):联合密度函数与时间起点无关。

    • 马尔科夫信源:信源发出源字的概率,仅与当前源字及前有限个源字有关。

  • 定义3.1.1 信源联合概率分布与时间起点无关:
    p ( x 1 , x 2 , ⋯   , x n ) = p ( x 1 + 1 , x 2 + 1 , ⋯   , x n + 1 ) p\left(x_{1}, x_{2}, \cdots, x_{n}\right)=p\left(x_{1+1}, x_{2+1}, \cdots, x_{n+1}\right) p(x1,x2,,xn)=p(x1+1,x2+1,,xn+1)
    则称该随机过程是平稳的。实际的信源短时间内是平稳的。本章主要研究时不变马尔科夫链。称 { a 1 , a 2 , . . . , a K } \{a_1,a_2,...,a_K\} {a1,a2,...,aK}为源字X。 x 1 x 2 . . . x n x_1x_2...x_n x1x2...xn为输出序列。输出概率由自身和前 l l l个源码有关, l l l个源字组成的状态组成信源状态序列 s 1 , s 2 , . . . , s m s_1,s_2,...,s_m s1,s2,...,sm

  • 相关概念:

    • 过渡态:能到达其它某一状态,但不能返回;

    • 吸收态:不能到达其它任何状态;

    • 常返:经有限步迟早要返回该状态;

    • 周期性:常返态中, q i i ( n ) q_{ii}(n) qii(n),仅当 n n n能被某整数 d d d整除时返回,周期性返回;

    • 非周期:所有 n n n的最大公约数为1;

    • 遍历:非周期常返;

    • 闭集:子集内状态不能达到子集外;

    • 不可约:最小闭集。

  • 定义3.1.2(各态历经信源):各个状态都是遍历态(非周期常返)。

    • 各态历经判定:对任意两个状态 i i i j j j,如果存在正整数 n 0 n_0 n0,使所有 n 0 n_0 n0步转移概率 P i j ( n 0 ) > 0 P_{ij}^{(n_0)}>0 Pij(n0)>0则可知信源是各态历经的。
  • 若概率矩阵 P P P m m m次幂 P m P^m Pm的所有元素皆为正,则该概率矩阵 P P P称为正规概率矩阵

3.2 熵率

  • 定义3.2.1(熵率):假设信源字母序列长度为 n n n,并用 ( X 1 , X 2 , … , X n ) (X_1, X_2,…, X_n) (X1,X2,,Xn)表示,这是一个随机向量,该随机矢量的联合熵为: H ( X 1 , X 2 , . . . , X n ) H ( X_1, X_2 ,..., X_n) H(X1,X2,...,Xn) 则每个源字母的平均熵为: H n ( x ) ( X 1 , X 2 , . . . , X n ) / n H_n(x) ( X_1, X_2 ,..., X_n)/n Hn(x)(X1,X2,...,Xn)/n。其极限(若存在)称为该信源的熵率
    H ( ( X ) ) = lim ⁡ n → ∞ 1 n H n ( x ) ( X 1 , X 2 , . . . , X n ) H(\mathcal(X))=\lim_{n\to \infty}\frac{1}{n}H_n(x) ( X_1, X_2 ,..., X_n) H((X))=nlimn1Hn(x)(X1,X2,...,Xn)

  • 定理3.2.1: 设 { X i } \{X_i\} {Xi}为平稳马式链,其平稳分布为 μ \mu μ,转移概率矩阵为 P P P,则其熵率为
    H ( X ) = − ∑ i j μ i P i j log ⁡ P i j = − ∑ i = 1 N ∑ j = 1 N μ i P i j log ⁡ P i j H(\mathcal{X})=-\sum_{i j} \mu_{i} P_{i j} \log P_{i j}=-\sum_{i=1}^{N} \sum_{j=1}^{N} \mu_{i} P_{i j} \log P_{i j} H(X)=ijμiPijlogPij=i=1Nj=1NμiPijlogPij

  • 引入变量 H ′ ( X ) = lim ⁡ n → ∞ H ( X n ∣ X 1 , . . . , X n − 1 ) H^\prime(\mathcal{X}) = \lim_{n \to \infty} H(X_n|X_1,...,X_{n-1}) H(X)=limnH(XnX1,...,Xn1)

  • 定理3.2.2:平稳随机过程的熵率存在,且 H ( X ) = H ′ ( X ) H(\mathcal{X}) = H^\prime(\mathcal{X}) H(X)=H(X)

  • 定理3.2.3: 平稳随机过程的 H ( X n ∣ X 1 , . . . , X n − 1 ) H(X_n|X_1,...,X_{n-1}) H(XnX1,...,Xn1)为单调递减序列。

  • 定理3.2.4(Cesaro值):若 a n → a a_n\to a ana b n = 1 n ∑ i = 1 n a i b_n =\frac{1}{n}\sum_{i=1}^na_i bn=n1i=1nai b n → a b_n \to a bna

3.3 马尔科夫链的函数

  • 定理3.3.1 X 1 , X 2 , … , X n X_1,X_2,…,X_n X1,X2,,Xn构成平稳马尔可夫链,且 Y i = Φ ( X i ) Y_i=Φ(X_i) Yi=Φ(Xi),那么
    H ( Y n ∣ Y n − 1 , … , Y 1 , X 1 ) ≤ H ( Y ) ≤ H ( Y n ∣ Y n − 1 , … , Y 1 ) H\left(Y_{\mathrm{n}} \mid Y_{\mathrm{n}-1}, \ldots, Y_{1}, X_{1}\right) \leq H(\mathcal{Y}) \leq H\left(Y_{\mathrm{n}} \mid Y_{\mathrm{n}-1}, \ldots, Y_{1}\right) H(YnYn1,,Y1,X1)H(Y)H(YnYn1,,Y1)
    lim ⁡ H ( Y n ∣ Y n − 1 , … , Y 1 , X 1 ) = H ( D ) = lim ⁡ H ( Y n ∣ Y n − 1 , … , Y 1 ) \lim H\left(Y_{\mathrm{n}} \mid Y_{\mathrm{n}-1}, \ldots, Y_{1}, X_{1}\right)=H(\mathcal{D})=\lim H\left(Y_{\mathrm{n}} \mid Y_{\mathrm{n}-1}, \ldots, Y_{1}\right) limH(YnYn1,,Y1,X1)=H(D)=limH(YnYn1,,Y1)

  • 定义3.3.1(隐马尔可夫模型) 考虑 X i X_i Xi的随机函数 Y i Y_i Yi。由 X 1 , X 2 , … , X n X_1,X_2,…,X_n X1,X2,,Xn定义新过程 Y 1 , Y 2 , … , Y n Y_1,Y_2,…,Y_n Y1,Y2,,Yn,其中每个 Y i Y_i Yi服从 p ( y i ∣ x i ) p(y_i|x_i) p(yixi),且条件独立于其他所有的 X j X_j Xj j ≠ i j≠i j=i,即
    p ( x n , y n ) = p ( x 1 ) ∏ i = 1 n − 1 p ( x i + 1 ∣ x i ) ∏ i = 1 n p ( y i ∣ x i ) p\left(x^{n}, y^{n}\right)=p\left(x_{1}\right) \prod_{i=1}^{n-1} p\left(x_{i+1} \mid x_{i}\right) \prod_{i=1}^{n} p\left(y_{i} \mid x_{i}\right) p(xn,yn)=p(x1)i=1n1p(xi+1xi)i=1np(yixi)
    这样的过程称为隐马尔可夫模型(HMM)

4. 数据压缩

4.1 编码的基本概念

  • 贝尔实验室的Shannon 和 MIT 的 Fano几乎同时提出了最早的对符号进行有效编码从而实现数据压缩的 Shannon-Fano 编码方法。
  • 可以证明,算术编码得到的压缩效果可以最大地减小信息的冗余度,用最少量的符号精确表达原始信息内容。算术编码是部分匹配预测(PPM)技术的变体
  • 定义4.1.1 关于随机变量 X X X信源编码 C C C是从 X X X的取值空间到 D ∗ D^\ast D的一个映射,其中 D ∗ D^\ast D表示字母表 D D D上有限长度的字符串所构成的集合。用 C ( x ) C(x) C(x)表示 x x x的码字,并用 l ( x ) l(x) l(x)表示 C ( x ) C(x) C(x)的长度。

  • 定义4.1.2 设随机变量 X ∼ p ( x ) X\sim p(x) Xp(x),信源编码 C ( x ) C(x) C(x)的期望长度为

L ( c ) = ∑ x ∈ X p ( x ) l ( x ) L(c) = \sum_{x\in \mathcal{X}}p(x)l(x) L(c)=xXp(x)l(x)

其中 l ( x ) l(x) l(x)表示对应于 x x x的码字长度。

  • 定义4.1.3 如果编码将 X X X的取值空间中的每个元素映射成 D ∗ D^\ast D中不同的字符串,即 x ≠ x ′ ⇒ C ( x ) ≠ C ′ ( x ) x \neq x^\prime \Rightarrow C(x) \neq C^\prime(x) x=xC(x)=C(x)则称这个编码是非奇异的。

  • 定义4.1.4 编码 C C C扩展 C ∗ C^\ast C是从 X X X上的有限长字符串到 D D D上的有限长字符串的映射,定义为

C ( x 1 , x 2 , . . . , x n ) = C ( x 1 ) C ( x 2 ) . . . C ( x n ) C(x_1,x_2,...,x_n)=C(x_1)C(x_2)...C(x_n) C(x1,x2,...,xn)=C(x1)C(x2)...C(xn)

C ( x i ) C(x_i) C(xi))表示相应码字的串联。

  • 定义4.1.5 如果一个编码的扩展码是非奇异码,则称该编码是唯一可译的。信息序列与码字序列一一对应。

  • 定义4.1.6 若码中无任何码字是其它码字的前缀,则称该码为前缀码

  • 每一码字传输完毕,即可译码,称为即时码

4.2 Kraft不等式

  • 定理4.2.1(Kraft不等式,前缀码存在定理) 含有 D D D个码字的编码系统,当且仅当各个码字长度
    l 1 , l 2 , . . . , l m l_1,l_2,...,l_m l1,l2,...,lm满足Kraft不等式

∑ k = 1 m D − l k ⩽ 1 \sum_{k=1}^m D^{-l_k} \leqslant 1 k=1mDlk1

时,存在前缀码。

  • 定理4.2.2(推广Kraft不等式) 含有 D D D个码字的编码系统,对任意构成前缀码的可数无限码字集,当且仅当个码字长度 l 1 , l 2 , . . . , l ∞ l_1,l_2,...,l_\infty l1,l2,...,l满足Kraft不等式

∑ k = 1 m D − l k ⩽ 1 \sum_{k=1}^m D^{-l_k} \leqslant 1 k=1mDlk1

时,存在前缀码。

4.3 最优码

  • 定理4.3.1 随机变量 X X X的任一 D D D元即时码的期望长度必定大于或等于熵 H D ( X ) H_D(X) HD(X),即 L ⩾ H D ( X ) L\geqslant H_D(X) LHD(X),当且仅当 p i = D − l i p_i = D^{-l_i} pi=Dli时等号成立。

  • 定义4.3.1 对于某个 n n n,如果概率分布的每一个概率值均等于 D − n D^{-n} Dn,则称这个概率分布是 D D D进制的。当且仅当 X X X的分布是 D D D进制的,上述定理等号成立。

  • 定理4.3.2(最优码长的界) l 1 , l 2 , … , l m l_1, l_2,…, l_m l1,l2,,lm是关于信源分布 p p p和一个 D D D元字母表的一组最优码长, L L L为最优码的期望长度,则

H D ( X ) ⩽ L ⩽ H D ( X ) + 1 H_D(X) \leqslant L \leqslant H_D(X)+1 HD(X)LHD(X)+1

  • L n L_n Ln为每个输入字符的平均码长,即

L n = 1 2 E l ( x 1 , x 2 , . . . , x n ) L_n = \frac{1}{2}El(x_1,x_2,...,x_n) Ln=21El(x1,x2,...,xn)

有增加分组长度,可逼近最优编码。

  • 定理4.3.3(平稳随机过程的编码界) 每字符最小期望码字长满足

H ( X 1 , X 2 , ⋯   , X n ) n ≤ L n ∗ ≤ H ( X 1 , X 2 , ⋯   , X n ) n + 1 n \frac{H\left(X_{1}, X_{2}, \cdots, X_{n}\right)}{n} \leq L_{n}^{*} \leq \frac{H\left(X_{1}, X_{2}, \cdots, X_{n}\right)}{n}+\frac{1}{n} nH(X1,X2,,Xn)LnnH(X1,X2,,Xn)+n1

进一步,若 X 1 , X 2 , … , X n X_1,X_2,…,X_n X1,X2,,Xn是平稳随机过程,有 L n ∗ → H ( X ) L_n^\ast \to H(\mathcal{X}) LnH(X)。其中$ H(\mathcal{X})$为随机过程的熵率。

  • 编码偏差:编码的分布与信源的真实分布存在偏差时,可用 D ( p ∣ ∣ q ) D(p||q) D(pq)描述编码增加的复杂度。

  • 定理4.3.4(偏码) 码字长度分配关于p(x)的期望满足 l ( x ) = − ⌈ log ⁡ q ( x ) ⌉ l(x)=-\lceil\log q(x)\rceil l(x)=logq(x)关于p(x)的期望满足

H ( p ) + D ( p ∣ ∣ q ) ⩽ E p l ( x ) < H ( p ) + D ( p ∣ ∣ q ) + 1 H(p) + D(p || q) \leqslant E_pl(x)< H(p)+D(p || q)+1 H(p)+D(pq)Epl(x)<H(p)+D(pq)+1

  • 结论:若真实分布为 p ( x ) p(x) p(x),而编码使用的分布为 q ( x ) q(x) q(x),则平均码长增加 D ( p ∣ ∣ q ) D(p||q) D(pq)

  • 定理4.3.5 (唯一可译码的Kraft不等式) 含有 D D D个码字的编码系统,其任意唯一可译码的平均码长满足Kraft不等式

∑ k = 1 m D − l k ⩽ 1 \sum_{k=1}^m D^{-l_k} \leqslant 1 k=1mDlk1

反之,若给定满足上述不等式的一组码字长度,则可以构造出具有同样码字长度的唯一可译码。

4.4 Haffman编码

  • 缩减信源:指由原信源缩减得到的信源: K → K − 1 K\to K-1 KK1。其概率变化如下:

[ X ′ P ′ ( x ) ] = [ a 1 a 2 ⋯ a K − 2 a K − 1 ′ p ( a 1 ) p ( a 2 ) ⋯ p ( a K − 2 ) p ′ ( a K − 1 ) ] \left[\begin{array}{c} X^{\prime} \\ P^{\prime}(x) \end{array}\right]=\left[\begin{array}{ccccc} a_{1} & a_{2} & \cdots & a_{K-2} & a_{K-1}^{\prime} \\ p\left(a_{1}\right) & p\left(a_{2}\right) & \cdots & p\left(a_{K-2}\right) & p^{\prime}\left(a_{K-1}\right) \end{array}\right] [XP(x)]=[a1p(a1)a2p(a2)aK2p(aK2)aK1p(aK1)]

也就是有 p ′ ( a K − 1 ) = p ( a K − 1 ) + p ( a K ) p^\prime(a_{K-1}) = p(a_{K-1})+p(a_K) p(aK1)=p(aK1)+p(aK)

  • 编码方法:设 C ′ C^\prime C为某信源经缩减后所得的最优前缀码,将 C ′ C^\prime C中由原信源中的两个最小概率的两个字母缩减得到的字母所对应的码字各加0和1,作为原信源的两个最小概率的源码的码字,而其余码字不变,则这样得到的码 C C C为原信源的最优前缀码。
  • 最小化 ∑ p i l i \sum p_il_i pili的哈夫曼算法对任意一组 p i ⩾ 0 p_i\geqslant 0 pi0都是成立的,而无需考虑 ∑ p i \sum p_i pi的大小。此时,赫夫曼编码算法最小化的是码长加权和 ∑ ω i l i \sum \omega_il_i ωili ,而非平均码长。
  • 对于某个特定的字符,使用码长为 − ⌈ log ⁡ q ( x ) ⌉ -\lceil\log q(x)\rceil logq(x)的编码(称为香农码)可能比最优码更差。

  • 费诺编码:是次优编码,类似于切片码。先将概率值以递减次序排列,然后选取k使

∣ ∑ i = 1 k log ⁡ p i − ∑ i = k + 1 m log ⁡ p i ∣ \left|\sum_{i=1}^{k} \log p_{i}-\sum_{i=k+1}^{m} \log p_{i}\right| i=1klogpii=k+1mlogpi

达到最小值。

  • 定理4.4.1 Huffman码是最优的,即如果 C C C是Huffman码而 C ′ C^\prime C是其它码,则 L ( C ∗ ) ⩽ L ( C ’ ) L(C^*)\leqslant L(C’) L(C)L(C)。利用归纳法可以证明二元赫夫曼码是最优的。

4.5 算术编码

  • 适合的场合: 小字母表、概率分布不均衡、建模与编码分开。

  • 将源码序列的概率与 [ 0 , 1 ) [0,1) [0,1)中的一个实数相对应,实数的二进制表示即为源码序列的算术码。

  • 定理4.5.1(算术码的存在性) 定义 a k a_k ak的修正累积概率 F ˉ ( a k ) = ∑ a i > a k p ( a i ) + p ( a k ) / 2 \bar{F}\left(a_{k}\right)=\sum_{a_{i}>a_{k}} p\left(a_{i}\right)+p\left(a_{k}\right) / 2 Fˉ(ak)=ai>akp(ai)+p(ak)/2由修正概率可以推出源字母,而后将修正概率用二进制表示,取二进制小数后 l K l_K lK位,使其能与 a K a_K aK一一对应。可以证明,取 l k = ⌈ log ⁡ p ( a k ) − 1 ⌉ + 1 l_{k}=\left\lceil\log p\left(a_{k}\right)^{-1}\right\rceil+1 lk=logp(ak)1+1位即可唯一确定 a k a_k ak;此时平均码长 l ˉ < H ( X ) + 2 \bar{l}<H(X)+2 lˉ<H(X)+2

  • 性质:与Huffman相比二者的渐近性质相同。扩展的Huffman要求巨大数量的存储和编码 m n m^n mn。增益为字母表大小和分布的函数。不均衡的分布更适合算术编码,很容易将算术编码扩展到多个编码器,很容易将算术编码适应到统计变化模型(自适应模型、上下文模型)

  • 自适应算术编码:统计编码技术需要利用信源符号的概率,获得这个概率的过程称为建模。建模的方式包括静态建模自适应动态建模

  • QM编码器:将输入符号(一个bit)分为大概率符号(More Probable Symbol,MPS)或小概率符号(Less Probable Symbol,LPS)在输入下一位之前,编码器先利用一个统计模型预测MPS是0还是1,然后再输入该位并按其实际值分类输出流为MPS或LPS的流,MPS和LPS的概率动态更新,为算术编码器所用。

5. 信道容量

  • 信道描述:(1 )输入容许字母集合及统计特征;(2)输出容许字母集合;(3)输入输出的转移概率分布
    • 离散信道: { X , p ( y ∣ x ) , Y } \{X,p(y|x),Y\} {X,p(yx),Y}。如果输出概率仅依赖于输入符号,与以前的输入、输出均无关,这种信道称为无记忆信道

5.1 基本概念

  • 定义5.1.1:离散无记忆信道信道容量定义为 C = max ⁡ p ( x ) I ( X ; Y ) C = \max_{p(x)}I(X;Y) C=maxp(x)I(X;Y)。将信道容量定义为信道的最高码率。在此码率下,信息能够以任意小的差错概率传输。(香农第二定理)

  • 信道例子:无噪声二元信道、无重叠输出的有噪声信道、有噪声的打字机信道;

    • 二元对称信道(BSC)。该二元信道的输入字符以概率 p p p互补。其信道容量为 C = 1 − H ( p ) C = 1-H(p) C=1H(p)
    • 二元删除信道(BEC)。该二元信道的输入字符以概率 α α α被删除。在接收端收到e,不能确定发送端比特。其信道容量为 C = 1 − α C = 1-\alpha C=1α
  • 译码 W ^ = g ( Y n ) \hat{W}=g(Y^n) W^=g(Yn)猜测消息 W W W

  • 定义5.1.2(离散信道):用 ( X , p ( y ∣ x ) , Y ) (X,p(y|x),Y) (X,p(yx),Y)表示的离散信道由两个有限集 X X X Y Y Y以及一簇概率密度函数 p ( y ∣ x ) p(y|x) p(yx)构成,其中对任意 x , y x,y x,y p ( y ∣ x ) ⩾ 0 p(y|x)\geqslant 0 p(yx)0,以及对任意的 x x x,有 ∑ p ( y ∣ x ) = 1 \sum p(y|x) = 1 p(yx)=1 x x x y y y分别看作信道的输入与输出。

  • 定义5.1.3(扩展信道): 离散无记忆信道(DMC)的 n n n次扩展是指信道 ( X n , p ( y n ∣ x n ) , Y n ) (X^n,p(y^n|x^n),Y^n) (Xn,p(ynxn),Yn),其中 p ( y k ∣ x k , y k − 1 ) = p ( y k ∣ x k ) p(y_k|x^k,y^{k-1}) = p(y_k | x_k) p(ykxk,yk1)=p(ykxk)

  • 定义5.1.4(编码):信道 ( X , p ( y ∣ x ) , Y ) (X,p(y|x),Y) (X,p(yx),Y) ( M , n ) (M,n) (M,n)码由以下部分构成:(1)下标集 { 1 , 2 , … , M } \{1,2,…,M\} {1,2,,M} ;(2)编码函数为 X n : { 1 , 2 , … , M } → X n X^n: \{1,2,…,M\}\to X^n Xn:{1,2,,M}Xn上的映射,生成码字 x n ( 1 ) , x n ( 2 ) , … , x n ( M ) x_n(1), x_n(2),…, x_n(M) xn(1),xn(2),,xn(M)。码字集合称为码书;(3)译码函数 g : Y n → { 1 , 2 , … , M } g: Y_n\to \{1,2,…,M\} g:Yn{1,2,,M}。为一确定规则,对接收码字进行译码。

  • 定义5.1.5(条件误差概率): 设 λ i = P r ( g ( Y n ) ≠ i ∣ X n = x n ( i ) ) \lambda_i = Pr(g(Y^n)\neq i | X^n = x^n(i)) λi=Pr(g(Yn)=iXn=xn(i))为已知下标 i i i被发送的条件下的条件误差概率,其中 I ( ⋅ ) I(·) I()为示性函数。

  • 最大误差概率定义为 λ ( n ) = max ⁡ i ∈ { 1 , 2 , . . . , M } λ i \lambda^{(n)} = \max_{i\in \{1,2,...,M\}}\lambda_i λ(n)=maxi{1,2,...,M}λi

  • 定义5.1.6(平均误差概率) P e ( n ) = 1 M ∑ i = 1 M λ i P_e^{(n)} = \frac{1}{M} \sum_{i=1}^M \lambda_i Pe(n)=M1i=1Mλi

  • 定义5.1.7 ( M , n ) (M,n) (M,n)码率定义为 R = ( log ⁡ M ) / n R=(\log M)/n R=(logM)/n 比特

  • 定义5.1.8(可达):如果存在一个 ( ⌈ 2 n R ⌉ , n ) \left(\lceil2^{nR}\rceil,n\right) (2nR,n)码序列,满足 n → ∞ n\to \infty n时,最大误差概率 λ ( n ) → 0 \lambda (n)\to 0 λ(n)0,则称码率 R R R是可达的。

  • 定义5.1.9(信道容量) :所有可达码率的上确界。

  • 简单推论:对于充分大的分组长度,小于信道容量的码率对应的误差概率可以任意小。

5.2 对称信道

  • 对称信道的信道容量:设 r r r表示转移矩阵的一行: I ( X ; Y ) = H ( Y ) − H ( r ) ⩽ log ⁡ ∣ Y ∣ − H ( r ) I(X;Y)=H(Y)-H(r)\leqslant \log|Y| -H(r) I(X;Y)=H(Y)H(r)logYH(r).当 Y Y Y等概分布时,等号成立。

  • 定义5.2.1(对称信道):如果信道转移矩阵 p ( y ∣ x ) p(y|x) p(yx)的任何两行互相置换;任何两列也互相置换,那么称该信道是对称的。如果转移矩阵的每一行 p ( ⋅ ∣ x ) p(·|x) p(x)都是其他每行的置换,而所有列的元素和 ∑ p ( y ∣ x ) \sum p(y|x) p(yx)相等,则称这个信道是弱对称的。

  • 定理7.2.1 对于弱对称信道, C = log ⁡ ∣ Y ∣ − H ( r ) C = \log|Y| - H(r) C=logYH(r)

  • 信道容量的性质:
    a. C ⩾ 0 C\geqslant 0 C0
    b. C ⩽ log ⁡ ∣ X ∣ C \leqslant \log|X| ClogX
    c. C ⩽ log ⁡ ∣ Y ∣ C \leqslant \log | Y| ClogY
    d. I ( X ; Y ) I(X;Y) I(X;Y) p ( x ) p(x) p(x)的上凸函数,其最大值即为信道容量。

5.3 信道编码定理

  • 联合典型:输入典型n长序列,有约 2 n H ( Y ∣ X ) 2^{nH(Y|X)} 2nH(YX) 个可能的Y序列与之对应,且所有序列等概。

  • 定理5.3.1(信道编码定理,香农第二定理):对于离散无记忆信道,小于信道容量 C C C的所有码率都是可达的。具体来说,对任意码率 R < C R<C R<C,存在一个 ( 2 n R , n ) (2^{nR},n) (2nR,n)码序列,它的最大误差概率为 λ ( n ) → 0 \lambda^{(n)}\to 0 λ(n)0。反之,任何满足的 λ ( n ) → 0 \lambda^{(n)}\to 0 λ(n)0的码 ( 2 n R , n ) (2^{nR},n) (2nR,n)序列必定有 R ⩽ C R\leqslant C RC

5.4 联合典型序列

  • 定义5.4.1: 服从分布 p ( x , y ) p(x,y) p(x,y)联合典型序列 { ( x n , y n ) } \{(x^n,y^n)\} {(xn,yn)}所构成的集合 A ε ( n ) A_ε ^{(n)} Aε(n)是指其经验熵与真实熵“ ε \varepsilon ε-*接近”的 n n n长序列构成的集合,即

A ( n ) = { ( x n , y n ) ∈ X n × Y n : ∣ − ( log ⁡ p ( x a ) ) / n − H ( X ) ∣ < ε ∣ − ( log ⁡ p ( y n ) ) / n − H ( Y ) ∣ < ε ∣ − ( log ⁡ p ( x n , y n ) ) / n = H ( X , Y ) ∣ < ε } \begin{array}{l} A^{(n)}=\left\{\left(x^{n}, y^{n}\right) \in X^{n} \times Y^{n}:\right. \\ \left|-\left(\log p\left(x^{a}\right)\right) / n-H(X)\right|<\varepsilon \\ \left|-\left(\log p\left(y^{n}\right)\right) / n-H(Y)\right|<\varepsilon \\ \left.\left|-\left(\log p\left(x^{n}, y^{n}\right)\right) / n=H(X, Y)\right|<\varepsilon\right\} \end{array} A(n)={(xn,yn)Xn×Yn:(logp(xa))/nH(X)<ε(logp(yn))/nH(Y)<ε(logp(xn,yn))/n=H(X,Y)<ε}

  • 定理5.4.1(联合AEP): 设 ( X n , Y n ) (X^n,Y^n) (Xn,Yn)为服从 p ( x n , y n ) = ∏ i = 1 n p ( x i , y i ) p(x^n,y^n) = \prod_{i=1}^n p (x_i,y_i) p(xn,yn)=i=1np(xi,yi)的i.i.d.的 n n n长序列则
    1、当 n → ∞ n\to \infty n时, P r ( ( X n , Y n ) ∈ A ε ( n ) ) → 1 Pr((X^n,Y^n)\in A_\varepsilon^{(n)})\to 1 Pr((Xn,Yn)Aε(n))1
    2、 ∣ A ε ( n ) ∣ ⩽ 2 n H ( X , Y ) + ε |A_\varepsilon^{(n)}|\leqslant 2^{nH(X,Y)+\varepsilon} Aε(n)2nH(X,Y)+ε
    3、如果 X ~ n \tilde{X}^n X~n Y ~ n \tilde{Y}^n Y~n 是独立的,且与 p ( x n , y n ) p(x^n,y^n) p(xn,yn)有相同的边缘分布,那么

Pr ⁡ ( ( X ~ n , Y ~ ∗ n ) ∈ A c ( n ) ) ≤ 2 − n ( I ( X ; Y ) − 3 ε ) \operatorname{Pr}\left(\left(\tilde{X}^{n}, \tilde{Y}^{*n}\right) \in A_{c}^{(n)}\right) \leq 2^{-n(I(X ; Y)-3 \varepsilon)} Pr((X~n,Y~n)Ac(n))2n(I(X;Y)3ε)

而且,对于充分大的 n n n
Pr ⁡ ( ( X ~ n , Y ~ n ) ∈ A e ( n ) ) ≥ ( 1 − ε ) 2 − n ( I ( X ; Y ) + 3 ε ) \operatorname{Pr}\left(\left(\tilde{X}^{n}, \tilde{Y}^{n}\right) \in A_{e}^{(n)}\right) \geq(1-\varepsilon) 2^{-n\left(I(X;Y)+3\varepsilon\right)} Pr((X~n,Y~n)Ae(n))(1ε)2n(I(X;Y)+3ε)

5.5 汉明码

  • 汉明码是1950年由汉明首先构造, 用以纠正单个错误的线性分组码。

  • 奇偶校验矩阵性质:矩阵 H H H对任意码字 c c c均有 H c T = 0 Hc^T=0 HcT=0

  • 差错向量:设 e i e_i ei是第 i i i个位置为1其余位置为0的向量。

  • 接收向量:若码字第 i i i个位置出错,则接收到的向量为 r = c + e i r=c+e_i r=c+ei

  • 校验 H r T = H ( c + e i ) T = H c T + H e i T = H e i T Hr^T=H(c+e_i)T=Hc^T+He_i^T=He_i^T HrT=H(c+ei)T=HcT+HeiT=HeiT可指示错误位置。

  • 系统码:对于一般情形,将线性码进行修改,可以使得映射更加明显:让码字中的前 k k k个比特代表消息,而后面 n − k n-k nk个比特留作奇偶校验位。这样得到的编码称作系统码

  • 卷积码:每个输出组不仅依赖于当前的输入组,而且依赖于过去的一些输入组。这种码的一个高级结构化的形式称作卷积码

5.6 反馈容量

  • 定义5.6.1 (反馈码) ( 2 n R , n ) (2^{nR},n) (2nR,n) 的一个映射序列 x i ( W , Y i − 1 ) x_i(W,Y^{i-1}) xi(W,Yi1)和一个译码函数序列 g : Y n → { 1 , 2 , … , 2 n R } g:Y^n\to \{1,2,…,2^{nR}\} g:Yn{1,2,,2nR},其中 x i x_i xi 是消息 W ∈ { 1 , 2 , … , 2 n R } W\in \{1,2,…,2^{nR}\} W{1,2,,2nR}和先前接收到的值 Y 1 , Y 2 , … , Y i − 1 Y_1,Y_2,…,Y_{i-1} Y1,Y2,,Yi1的函数。

  • 差错概率 W W W服从 { 1 , 2 , … , 2 n R } \{1,2,…,2^{nR}\} {1,2,,2nR}均匀分布时,有
    P e ( n ) = P r { g ( Y n ) ≠ W } P_e^{(n)} = Pr\{g(Y^n) \neq W\} Pe(n)=Pr{g(Yn)=W}

  • 定义5.6.2 (反馈容量):离散无记忆信道的反馈容量定义为反馈码可以达到的所有码率的上确界。

  • 定理5.6.1(反馈容量):信道反馈容量等于信道容量。
    C F B = C = max ⁡ p ( x ) I ( X ; Y ) C_{FB} = C = \max_{p(x)}I(X;Y) CFB=C=p(x)maxI(X;Y)

  • 定理5.6.2:采用联合信源信道编码与分离编码一样有效。

  • 定理5.6.3(信源信道编码定理):如果 V 1 , V 2 , … , V n V_1,V_2,…,V_n V1,V2,,Vn为有限字母表上满足AEP和 H ( V ) < C H(V)<C H(V)<C的随机过程,则存在一个信源信道编码使得误差概率 P r ( V ˉ n ≠ V n ) → 0 Pr(\bar{V}^n \neq V^n)\to 0 Pr(Vˉn=Vn)0 。反之,对任意平稳随机过程,如果 H ( V ) > C H(V)>C H(V)>C,那么误差概率远离0,从而不可能以任意低的误差概率通过信道发送这个过程。能够通过信道传输平稳遍历信源当且仅当它的熵率小于信道容量。

6. 微分熵

6.1 定义

  • 定义6.1.1 X X X是一个随机变量,其累计分布函数为 F ( x ) = P r ( X ⩽ x ) F(x)=Pr(X\leqslant x) F(x)=Pr(Xx) 。如果 F ( x ) F(x) F(x)连续,则称该随机变量连续。另外,使 f ( x ) > 0 f(x)>0 f(x)>0 的所有 x x x构成的集合称为 X X X支撑集

  • 定义6.1.2(微分熵) 一个以 f ( x ) f(x) f(x)为密度函数的连续型随机变量 X X X的微分熵 h ( X ) h(X) h(X)定义为

h ( X ) = − ∫ S f ( x ) log ⁡ f ( x ) d x h(X) = - \int_S f(x)\log f(x)dx h(X)=Sf(x)logf(x)dx

其中 S S S是这个随机变量的支撑集。离散的熵
H Δ x ( X ) = − ∑ i = − ∞ ∞ f ( x i Δ x ) log ⁡ ( f ( x i ) Δ x ) H_{\Delta x}(X) = -\sum_{i=-\infty}^\infty f(x_i\Delta x)\log (f(x_i)\Delta x) HΔx(X)=i=f(xiΔx)log(f(xi)Δx)

  • 定义微分熵的目的:微分熵差具有信息度量的意义、连续信源的微分熵与离散信源的熵在形式上统一。

6.2 连续随机变量的AEP

  • 定理 6.2.1 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn是概率密度函数为 p ( x ) p(x) p(x)的i.i.d随机序列,那么下面的极限依概率收敛 − 1 n log ⁡ p ( X 1 , X 2 , . . . , X n ) → h ( X ) -\frac{1}{n}\log p(X_1,X_2,...,X_n)\to h(X) n1logp(X1,X2,...,Xn)h(X)

  • 定义6.2.1(体积) 集合 A ⊂ R n A\sub R^n ARn的体积 V o l ( A ) Vol(A) Vol(A)定义为: V o l ( A ) = ∫ S d x 1 d x 2 . . . d x n Vol(A) = \int_S dx_1 dx_2 ... dx_n Vol(A)=Sdx1dx2...dxn

  • 定理6.2.2典型集 A ε ( n ) A_\varepsilon^{(n)} Aε(n)有如下性质:
    a. 当 n n n充分大时, P r { A ε ( n ) } > 1 − ε Pr\{A_\varepsilon^{(n)}\}>1-\varepsilon Pr{Aε(n)}>1ε
    b. 对于所有 n n n V o l ( A ε ( n ) ) ⩽ 2 n ( h ( X ) + ε ) Vol(A_\varepsilon^{(n)})\leqslant 2^{n(h(X)+\varepsilon)} Vol(Aε(n))2n(h(X)+ε)
    c. 当 n n n充分大时, V o l ( A ε ( n ) ) ⩾ ( 1 − ε ) 2 n ( h ( X ) − ε ) Vol(A_\varepsilon^{(n)})\geqslant (1-\varepsilon)2^{n(h(X)-\varepsilon)} Vol(Aε(n))(1ε)2n(h(X)ε)

  • 定理8.2.3 在一阶指数意义下, 在所有概率 P ⩾ 1 − ε P\geqslant 1-ε P1ε的集合中, A ε ( n ) A_\varepsilon^{(n)} Aε(n)是体积最小者。

  • 微分熵解释:熵就是拥有大部分概率的最小集的边长的对数值。因此, 较低的熵意味着随机变量被限于一个狭小的有效正方体内,而较高的熵意味着该随机变量是高度分散的。

6.3 微分熵与离散的关系

  • 定理6.3.1 如果随机变量 X X X的密度函数 f ( x ) f(x) f(x)是黎曼可积的,那么
    H Δ x ( X ) + log ⁡ Δ x → h ( f ) = h ( X ) , Δ x → 0 H_{\Delta x}(X)+\log \Delta x \to h(f) = h (X),\Delta x\to 0 HΔx(X)+logΔxh(f)=h(X),Δx0

    于是,连续随机变量 X X X经过 n n n比特量化处理(分割的小区间长度 1 / 2 n 1/2^n 1/2n后的熵大约为 h ( X ) + n h(X)+n h(X)+n

6.4 联合微分熵与条件微分熵

  • 定义6.4.1 (联合微分熵) 联合密度函数为 f ( x 1 , x 2 , . . . , x n ) f(x_1, x_2, ..., x_n) f(x1,x2,...,xn)的一组随机

变量 X 1 , X 2 , . . . , X n X_1, X_2, ..., X_n X1,X2,...,Xn的联合微分熵定义为
h ( X 1 , X 2 , . . . , X n ) = − ∫ f ( x n ) log ⁡ f ( x n ) d x n h(X_1,X_2,...,X_n) = -\int f(x^n)\log f(x^n)dx^n h(X1,X2,...,Xn)=f(xn)logf(xn)dxn

  • 定义6.4.2 (条件微分熵) 联合密度函数为 f ( x , y ) f(x, y) f(x,y),条件微分熵定义为

h ( X ∣ Y ) = − ∫ f ( x , y ) log ⁡ f ( x ∣ y ) d x d y h(X|Y) = -\int f(x,y)\log f(x|y)dxdy h(XY)=f(x,y)logf(xy)dxdy

  • 定理6.4.1 (多元正态分布的熵) X 1 , X 2 , . . . , X n X_1, X_2, ..., X_n X1,X2,...,Xn服从均值为 μ μ μ,协方差矩阵为 K K K的多元正态分布则

h ( X 1 , X 2 , . . . , X n ) = h ( N ( μ , K ) ) = 1 2 log ⁡ ( ( 2 π e ) n ∣ K ∣ ) h(X_1,X_2,...,X_n) = h(N(\mu,K)) = \frac{1}{2}\log((2\pi e)^n|K|) h(X1,X2,...,Xn)=h(N(μ,K))=21log((2πe)nK)

6.5 相对熵与互信息

  • 互信息的一般形式:

  • 可从随机变量的值域的有限分割的角度来定义互信息。设 χ \chi χ为随机变量 X X X的值域, P \mathcal{P} P χ \chi χ的一个分割是指存在有限个不相交的集合 P i P_i Pi使得 ⋃ i P i = x \bigcup_iP_i = x iPi=x X X X关于 P P P的量化记为 [ X ] P [X]_{\mathcal{P}} [X]P是定义如下的离散随机变量:
    P r ( [ X ] P = i ) = P r ( X ∈ P i ) = ∫ P i d F ( x ) Pr([X]_P = i) = Pr(X \in P_i) = \int_{P_i}dF(x) Pr([X]P=i)=Pr(XPi)=PidF(x)

  • 任何随机变量 X X X Y Y Y间的互信息如下

I ( X ; Y ) = sup ⁡ P , Q I ( [ X ] P ; [ Y ] Q ) I(X;Y) = \sup_{P,Q}I([X]_P;[Y]_Q) I(X;Y)=P,QsupI([X]P;[Y]Q)

6.6 微分熵、相对熵以及互信息的性质

  • 定理6.6.1(相对熵非负) D ( f ∣ ∣ g ) ⩾ 0 D(f||g)\geqslant 0 D(fg)0,当且仅当 ∗ f ∗ = ∗ g ∗ *f*=*g* f=g,几乎处处等号成立。

  • 定理6.6.2 (微分熵的链式规则) h ( X 1 , X 2 , . . . , X n ) = ∑ i = 1 n h ( X i ∣ X 1 , X 2 , . . . , X i − 1 ) h(X_1,X_2,...,X_n) = \sum_{i=1}^n h(X_i | X_1,X_2,...,X_{i-1}) h(X1,X2,...,Xn)=i=1nh(XiX1,X2,...,Xi1)

  • 定理6.6.3 (微分熵的平移不变性) h ( X + c ) = h ( X ) h(X+c) = h(X) h(X+c)=h(X)

  • 定理6.6.4 (微分熵的倍加性) h ( a X ) = h ( X ) + l o g ∣ a ∣ h(aX)=h(X)+log|a| h(aX)=h(X)+loga

  • 定理6.6.5 (随机向量微分熵的上界):设随机向量 x ∈ R n x\in R^n xRn的均值为零,协方差矩阵为 K = E X X T K=EXX^T K=EXXT
    h ( X ) ⩽ 1 2 log ⁡ ( ( 2 π e ) n ∣ K ∣ ) h(X)\leqslant \frac{1}{2}\log((2\pi e)^n|K|) h(X)21log((2πe)nK)
    当且仅当 X ∼ N ( 0 , K ) X\sim N(0,K) XN(0,K)等号成立。

  • 定理6.6.6 (估计误差与微分熵):对任意随机变量X及其估计 X ^ \hat{X} X^
    E ( X − X ^ ) 2 ⩾ 1 2 π e e 2 h ( X ) E(X-\hat{X})^2\geqslant \frac{1}{2\pi e}e^{2h(X)} E(XX^)22πe1e2h(X)
    ,其中等号成立的充分必要条件是X为高斯分布而 X ^ \hat{X} X^为其均值。

7. 高斯信道

  • 高斯信道:噪声是独立同分布的高斯分布。

  • 接收信号:噪声与发送信号之和。数学表示: Y i = X i + Z i Z i ∼ N ( 0 , N ) Y_i = X_i + Z_i\quad Z_i \sim N(0,N) Yi=Xi+ZiZiN(0,N)

  • 高斯噪声假设:大量的小随机事件的累积效果渐近于正态分布。

  • 平均误码概率 P e = 1 − Φ ( ( P / N ) ) P_e = 1-\Phi(\sqrt{(P/N)}) Pe=1Φ((P/N) )

7.1 定义

  • 功率限制为P的高斯信道的信息容量为 C = max ⁡ p ( x ) : E X 2 ⩽ P I ( X ; Y ) C = \max_{p(x):EX^2\leqslant P }I(X;Y) C=maxp(x):EX2PI(X;Y)

  • 参数1 噪声熵 Z   ( 0 , N ) Z~(0,N) Z (0,N) h ( Z ) = ( log ⁡ 2 π e N ) / 2 h(Z) = (\log 2\pi eN)/2 h(Z)=(log2πeN)/2

  • 参数2 接收信号功率界 X X X Z Z Z独立且 E [ Z ] = 0 E[Z]=0 E[Z]=0,有 E [ Y 2 ] = P + N E[Y^2] = P+N E[Y2]=P+