典型集与Shannon信源编码理论

1. 弱大数定律

1.1 随机变量依概率收敛
考虑一个与 n n n有关的随机变量,通常是对 n n n个随机变量求和得到的新随机变(见后面的弱大数定律)量,记这个随机变量为 X X X。如果我们说这个随机变量“依概率收敛”于一个常量 u u u,则我们记为
∀ ϵ > 0 ,   lim ⁡ n → ∞ p ( ∣ X − u ∣ < ϵ ) = 1. {\forall}\epsilon>0, ~\lim\limits_{n\rightarrow \infty} p(|X-u|<\epsilon)=1. ϵ>0, nlimp(Xu<ϵ)=1.

此外还有3个等价的表达:
∀ ϵ > 0 ,   lim ⁡ n → ∞ p ( ∣ X − u ∣ ≤ ϵ ) = 1. {\forall}\epsilon>0, ~\lim\limits_{n\rightarrow \infty} p(|X-u|\leq \epsilon)=1. ϵ>0, nlimp(Xuϵ)=1.
∀ ϵ > 0 ,   lim ⁡ n → ∞ p ( ∣ X − u ∣ < ϵ ) > 1 − ϵ . {\forall}\epsilon>0, ~\lim\limits_{n\rightarrow \infty} p(|X-u|< \epsilon)>1-\epsilon. ϵ>0, nlimp(Xu<ϵ)>1ϵ.
∀ ϵ > 0 ,   lim ⁡ n → ∞ p ( ∣ X − u ∣ ≤ ϵ ) > 1 − ϵ . {\forall}\epsilon>0, ~\lim\limits_{n\rightarrow \infty} p(|X-u|\leq \epsilon)>1-\epsilon. ϵ>0, nlimp(Xuϵ)>1ϵ.
■ \blacksquare
1.2 弱大数定律
考虑 n n n个独立同分布(i.i.d.)的随机变量 X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots,X_n X1,X2,,Xn,他们的平均值均为 u u u,即 E ( X i ) = u E(X_i)=u E(Xi)=u。则考虑一个新的随机变量
X = X 1 + X 2 + ⋯ + X n n . X=\frac{X_1+X_2+\cdots+X_n}{n}. X=nX1+X2++Xn.则弱大数定律告诉我们, X X X“依概率收敛”到 u u u。可以按照1.1写出四种表达式。
■ \blacksquare
1.3 形式复杂的随机变量与弱大数定律
一些随机变量可能是最简单的随机变量通过某种变化得来的,比如一个随机变量 X X X,通过某种函数 f f f,得到一个新的随机变量 f ( X ) f(X) f(X)。这个函数甚至可以是这个随机变量自己的概率函数, p ( x ) p(x) p(x)。比如某个随机变量的概率函数为
p ( x ) = { 1 / 3 ,   x < 0 2 / 3 ,   x ≥ 0 p(x)=\left\{ \begin{array}{l} 1/3,~x<0\\ 2/3,~x\geq0 \end{array} \right. p(x)={1/3, x<02/3, x0那么有
p ( X ) = { 1 / 3 ,   X < 0 2 / 3 ,   X ≥ 0 p(X)=\left\{ \begin{array}{l} 1/3,~X<0\\ 2/3,~X\geq0 \end{array} \right. p(X)={1/3, X<02/3, X0这就是一个随机变量。因为最终的取值和概率有关(因为 X X X的取值和概率有关所以最后的函数取值也和概率有关)。

我们仍然考虑 n n n个i.i.d.的随机变量 X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots,X_n X1,X2,,Xn,并且记他们的概率函数为 p ( x ) p(x) p(x),平均值为 E ( X ) = ∑ x p ( x ) x = u E(X)=\sum_x p(x)x=u E(X)=xp(x)x=u。现在考虑一组新的随机变量 − log ⁡ p ( X 1 ) , − log ⁡ p ( X 2 ) , ⋯   , − log ⁡ p ( X n ) -\log p(X_1), -\log p(X_2), \cdots, -\log p(X_n) logp(X1),logp(X2),,logp(Xn),显然他们的平均值为
E ( − log ⁡ p ( X i ) ) = ∑ x − p ( x ) log ⁡ p ( x ) = H ( X ) . E(-\log p(X_i))=\sum_x -p(x)\log p(x)=H(X). E(logp(Xi))=xp(x)logp(x)=H(X).

我们定义新的随机变量
X ′ = − log ⁡ p ( X 1 ) − log ⁡ p ( X 2 ) − ⋯ − log ⁡ p ( X n ) n , X^{'}=\frac{-\log p(X_1) -\log p(X_2)- \cdots -\log p(X_n)}{n}, X=nlogp(X1)logp(X2)logp(Xn),然后应用1.2可以得到
∀ ϵ > 0 ,   lim ⁡ n → ∞ p ( ∣ X ′ − H ( X ) ∣ < ϵ ) = 1. {\forall} \epsilon>0,~\lim \limits_{n\rightarrow \infty} p(|X^{'}-H(X)|<\epsilon)=1. ϵ>0, nlimp(XH(X)<ϵ)=1.
■ \blacksquare

2. 弱典型集

2.1 弱AEP-I
1.3得到
∀ ϵ > 0 ,   lim ⁡ n → ∞ p ( ∣ X ′ − H ( X ) ≤ ϵ ∣ ) > 1 − ϵ . {\forall} \epsilon>0,~\lim\limits_{n\rightarrow \infty}p(|X^{'}-H(X)\leq \epsilon|)>1-\epsilon. ϵ>0, nlimp(XH(X)ϵ)>1ϵ. ■ \blacksquare
2.2 弱典型集定义
2.1中给出了一个由 ϵ \epsilon ϵ控制的不等式,并且依概率收敛意味着2.1只在 n n n足够大的时候成立。现实中 n n n可能并不是足够大,所以根据显示中有限的 n n n的大小,定义了弱典型集。

弱典型集仍然基于 n n n个i.i.d.随机变量 X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots,X_n X1,X2,,Xn,记这些随机变量和随机变量 X X X的概率函数相同,于是有 p ( x i ) = p ( x ) p(x_i)=p(x) p(xi)=p(x)。有了这些随机变量,我们定义一个序列为
x = ( x 1 , x 2 , ⋯   , x n ) . \bm{x}=(x_1,x_2,\cdots,x_n). x=(x1,x2,,xn).注意这里是具体的取值序列,不再是随机变量。显然,目前对这个序列没有任何限制,它可以取到满足定义的所有值,接下来我们要做的就是给他加上限制,使得这个序列只可以取到某些值。

考虑一个比较小的正数 ϵ \epsilon ϵ,我们加上限制
∣ − 1 n log ⁡ p ( x ) − H ( X ) ∣ ≤ ϵ . |-\frac{1}{n}\log p(\bm{x})-H(X)|\leq \epsilon. n1logp(x)H(X)ϵ.满足这个限制的 x = ( x 1 , x 2 , ⋯   , x n ) \bm{x}=(x_1,x_2,\cdots,x_n) x=(x1,x2,,xn)的所有取值构成了一个集合,这个集合就是弱典型集,他与 n n n, X X X, ϵ \epsilon ϵ有关,记为 W [ X ] ϵ n W^{n}_{[X]\epsilon} W[X]ϵn.
■ \blacksquare

为什么要定义弱典型集,是为了将弱AEP-I更好地扩展成弱AEP-II。

2.3 弱AEP-II
(1) 根据弱典型集的定义,我们有
2 − n ( H ( X ) + ϵ ) ≤ p ( x ) ≤ 2 − n ( H ( X ) − ϵ ) 2^{-n(H(X)+\epsilon)}\leq p(\bm{x}) \leq 2^{-n(H(X)-\epsilon)} 2n(H(X)+ϵ)p(x)2n(H(X)ϵ)弱典型集本来就是对概率函数的取值进行约束得到的一个集合,因此弱典型集中的序列的概率有上界和下界。
(2)
lim ⁡ n → ∞ p ( X ′ ∈ W [ X ] ϵ n ) > 1 − ϵ . \lim\limits_{n\rightarrow \infty}p(X^{'}\in W^{n}_{[X]\epsilon})>1-\epsilon. nlimp(XW[X]ϵn)>1ϵ.2.1中定义的随机变量取得弱典型集中序列的概率大于 1 − ϵ 1-\epsilon 1ϵ
(3)关注弱典型集的大小,当 n → ∞ n\rightarrow \infty n
( 1 − ϵ ) 2 n ( H ( X ) − ϵ ) ≤ ∣ W [ X ] ϵ n ∣ ≤ 2 n ( H ( X ) + ϵ ) (1-\epsilon)2^{n(H(X)-\epsilon)}\leq|W^{n}_{[X]\epsilon}|\leq 2^{n(H(X)+\epsilon)} (1ϵ)2n(H(X)ϵ)W[X]ϵn2n(H(X)+ϵ)这里的上下界由(1)中 p ( x ) p(\bm{x}) p(x)的上下界推导得来,并且反向对应(这里的上界对应(1)的下界)。
证明
(1)不用证明,打开弱典型集定义的绝对值显然得到。
(2)通过概念说明。由若AEP-I我们知道,对于随机变量 X ′ X^{'} X,有
∀ ϵ > 0 ,   lim ⁡ n → ∞ p ( ∣ X ′ − H ( X ) ≤ ϵ ∣ ) > 1 − ϵ . {\forall} \epsilon>0,~\lim\limits_{n\rightarrow \infty}p(|X^{'}-H(X)\leq \epsilon|)>1-\epsilon. ϵ>0, nlimp(XH(X)ϵ)>1ϵ.在这里,我们实际上确定了 ϵ \epsilon ϵ,然后确定相应的 W [ X ] ϵ n W^{n}_{[X]\epsilon} W[X]ϵn,因此上式我们其实是对于一个确定的 ϵ \epsilon ϵ,有
lim ⁡ n → ∞ p ( ∣ X ′ − H ( X ) ≤ ϵ ∣ ) > 1 − ϵ . \lim\limits_{n\rightarrow \infty}p(|X^{'}-H(X)\leq \epsilon|)>1-\epsilon. nlimp(XH(X)ϵ)>1ϵ.这个式子的实际意义是:随机变量 X ′ X^{'} X可以取到一些与 H ( X ) H(X) H(X)的绝对值相差小于等于 ϵ \epsilon ϵ的序列值,取到这些序列值的的概率的和大于 1 − ϵ 1-\epsilon 1ϵ。通过弱典型集的定义我们知道,这里的概率就是 X ′ X^{'} X取到弱典型集 W [ X ] ϵ n W^{n}_{[X]\epsilon} W[X]ϵn中序列值的概率。因此有
lim ⁡ n → ∞ p ( X ′ ∈ W [ X ] ϵ n ) > 1 − ϵ . \lim\limits_{n\rightarrow \infty}p(X^{'}\in W^{n}_{[X]\epsilon})>1-\epsilon. nlimp(XW[X]ϵn)>1ϵ.(2)实际上是弱AEP-I结合弱典型集概念的一个重表示。

下面证明(3)。弱典型集的大小与其中每个序列的概率密切相关,通过(1)中的概率下界我们知道每个序列的概率满足
2 − n ( H ( X ) + ϵ ) ≤ p ( x ) . 2^{-n(H(X)+\epsilon)}\leq p(\bm{x}). 2n(H(X)+ϵ)p(x).所有弱典型集中序列的概率和小于等于1(如果等于1说明弱典型集几乎包括了所有序列)。因此有
2 − n ( H ( X ) + ϵ ) ∣ W [ X ] ϵ n ∣ ≤ p ( W [ X ] ϵ n ) ≤ 1 , 2^{-n(H(X)+\epsilon)}|W^{n}_{[X]\epsilon}|\leq p(W^{n}_{[X]\epsilon})\leq 1, 2n(H(X)+ϵ)W[X]ϵnp(W[X]ϵn)1,得到
∣ W [ X ] ϵ n ∣ ≤ 2 n ( H ( X ) + ϵ ) . |W^{n}_{[X]\epsilon}|\leq 2^{n(H(X)+\epsilon)}. W[X]ϵn2n(H(X)+ϵ).另一边通过相似的方式,结合(2)可以证明得到。可见,弱典型集的大小上下界和(1)中弱典型集每个向量的概率上下界是反向对应的。
■ \blacksquare

弱典型集意义何在?弱AEP-II如何给出有意义的结论?

2.4 弱典型集的大小占比以及概率占比。
通过弱AEP-II的(2)我们可以看出,弱典型集的序列发生的概率基本上占了所有序列发生的概率的和。这是建立在我们取的较小的 ϵ \epsilon ϵ的前提下,保证了概率大于 1 − ϵ 1-\epsilon 1ϵ,如果 ϵ \epsilon ϵ取值过大,实际上既没办法保证弱典型集中序列概率占比大。比如 ϵ \epsilon ϵ取0.6,那只能保证弱典型集中序列概率和大于0.4。

我们确定了发生概率大的序列有什么用呢?在信源编码的时候,我们如果对发生概率比较大的序列用更高级的更精巧的编码方法,保证错误率很小,甚至没有错误,那么对于整体传输过程,整体错误率就很小,甚至没有(无限接近于0)。但是,如果这些占据很大概率的序列的集合很大,甚至大到几乎占据了整个可能的序列的空间,那其实上述的讨论是没有意义的,相当于我们对所有可能序列都需要高级且精巧的编码。而我们想要的理想情况是:某些序列的发生概率十分高,这些序列数量很少,我们只需要照顾好这些序列,其他发生概率小的序列甚至不用编码,我们都能得到很好误码率。

所以弱典型集的大小,或者说相对于整个可能的序列的大小的占比有多少呢?根据弱AEP-II的(2)的(3)我们知道
( 1 − ϵ ) 2 n ( H ( X ) − ϵ ) ≤ ∣ W [ X ] ϵ n ∣ ≤ 2 n ( H ( X ) + ϵ ) (1-\epsilon)2^{n(H(X)-\epsilon)}\leq|W^{n}_{[X]\epsilon}|\leq 2^{n(H(X)+\epsilon)} (1ϵ)2n(H(X)ϵ)W[X]ϵn2n(H(X)+ϵ)而整个可能序列的集合大小为 ∣ χ ∣ n |\chi|^n χn χ \chi χ是序列中每个元素的取值取值空间,即 x i ∈ χ x_i\in \chi xiχ)。上面的不等式同时除以 ∣ χ ∣ n |\chi|^n χn得到(注意 ∣ χ ∣ n = 2 n log ⁡ ∣ χ ∣ |\chi|^n=2^{n\log |\chi|} χn=2nlogχ)
( 1 − ϵ ) 2 n ( H ( X ) − ϵ − log ⁡ ∣ χ ∣ ) ≤ ∣ W [ X ] ϵ n ∣ ∣ χ ∣ n ≤ 2 n ( H ( X ) + ϵ − log ⁡ ∣ χ ∣ ) . (1-\epsilon)2^{n(H(X)-\epsilon-\log|\chi|)}\leq \frac{|W^{n}_{[X]\epsilon}|}{|\chi|^n} \leq 2^{n(H(X)+\epsilon-\log|\chi|)}. (1ϵ)2n(H(X)ϵlogχ)χnW[X]ϵn2n(H(X)+ϵlogχ).由熵的上界可知 H ( X ) − log ⁡ ∣ χ ∣ < 0 H(X)-\log|\chi|<0 H(X)logχ<0,因此在 ϵ \epsilon ϵ足够小的时候,如果能保证 H ( X ) + ϵ − log ⁡ ∣ χ ∣ < 0 H(X)+\epsilon-\log|\chi|<0 H(X)+ϵlogχ<0,那么上面不等式的最大值必然在 n → ∞ n\rightarrow \infty n时逼近0,这意味着弱典型集在整个可能的序列空间的占比很小。
■ \blacksquare

3. 香农信源编码定理

前面讨论弱典型集,就是为了引出香农信源编码理论。实际上,香农信源编码理论的正向部分,就是选取了弱典型集中的码字进行编码。反向部分也是利用弱AEP进行证明。

对于信源编码,我们考虑 n n n个随机变量的编码,即对随机序列 ( X 1 , X 2 , ⋯   , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,,Xn)进行编码。其中, x i ∈ χ x_i\in \chi xiχ,所以有
( x 1 , x 2 , ⋯   , x n ) ∈ χ n . (x_1,x_2,\cdots,x_n)\in \chi^n. (x1,x2,,xn)χn.如前面讨论的,为了保证误码率为0,我们可以对整个 χ n \chi^n χn中的序列全部进行编码,可是这样效率最低。最理想的信源编码只对 χ n \chi^n χn中部分序列进行编码,剩下的序列可以忽略,达到对整体误码率影响很小的结果。我们记我们只对 χ \chi χ的一个子集 A \bm{A} A进行编码,于是 A ⊂ χ n \bm{A}\subset \chi^n Aχn。记这个子集的序列被编码成的码字集合的大小为 M = ∣ A ∣ M=|\bm{A}| M=A. 因为表示这 M M M个码字需要约 log ⁡ M \log M logM个比特,所以定义码率(coding rate)为
log ⁡ M n . \frac{\log M}{n}. nlogM.显然,码率越小(大量的序列不用考虑,直接丢掉),我们的编码越高效。
香农信源编码理论讨论的是如何选取 A \bm{A} A,能够完成误码率逼近0且码率尽量小的高效编码。

3.1 香农信源编码正向部分(direct part)
如果允许误码率为任意小量(any small quantity),存在一个分组码(block code)在 n n n足够大(即接近于无穷大)的时候任意接近于熵 H ( X ) H(X) H(X)
证明
我们证明,其实令 A = W [ X ] ϵ n \bm{A}=W^{n}_{[X]\epsilon} A=W[X]ϵn就可以得到一个满足条件的编码方案。
根据弱AEP-II中的(3),我们知道有
( 1 − ϵ ) 2 n ( H ( X ) − ϵ ) ≤ M = ∣ W [ X ] ϵ n ∣ ≤ 2 n ( H ( X ) + ϵ ) . (1-\epsilon)2^{n(H(X)-\epsilon)}\leq M=|W^{n}_{[X]\epsilon}|\leq 2^{n(H(X)+\epsilon)}. (1ϵ)2n(H(X)ϵ)M=W[X]ϵn2n(H(X)+ϵ).于是码率满足
log ⁡ ( 1 − ϵ ) n + ( H ( X ) − ϵ ) ≤ log ⁡ M n ≤ H ( X ) + ϵ . \frac{\log (1-\epsilon)}{n}+(H(X)-\epsilon)\leq \frac{\log M}{n}\leq H(X)+\epsilon. nlog(1ϵ)+(H(X)ϵ)nlogMH(X)+ϵ.显然,当 ϵ \epsilon ϵ足够小的时候,码率接近 H ( X ) H(X) H(X)。这保证了我们的编码足够高效,即考虑的序列大小 A \bm{A} A足够小。下面我们还需要证明在这种编码下,误码率也接近于0.

根据弱AEP-II中的(2),我们知道在 n → ∞ n\rightarrow \infty n
p ( X ∈ W [ X ] ϵ n ) > 1 − ϵ , p(X\in W^{n}_{[X]\epsilon})>1-\epsilon, p(XW[X]ϵn)>1ϵ,这意味着误码率
P e < ϵ . P_e< \epsilon. Pe<ϵ. ϵ \epsilon ϵ足够小的时候,误码率为0.
■ \blacksquare

香浓编码定理的正向部分告诉了我们,只考虑弱典型集中的序列,我们可以在 n n n足够大并且 ϵ \epsilon ϵ足够小的时候得到一个码率接近 H ( X ) H(X) H(X)并且误码率接近0的信源编码方案。这里码率与 H ( X ) H(X) H(X)、误码率与0的接近程度,收到 n n n的大小和 ϵ \epsilon ϵ大小的影响。

有了香农信源编码定理的正向部分,我们自然会有一个疑问,是否我们还可以进一步压缩码率,找到一个码率小于 H ( X ) H(X) H(X)并且误码率几乎为0的信源编码方案呢。香农信源编码的反向部分就揭示了这个问题的答案。

3.2 香农信源编码反向部分(converse part)
如果一个分组码的信源编码的码率为
H ( X ) − ζ , ζ > 0 H(X)-\zeta, \zeta>0 H(X)ζ,ζ>0其中 ζ \zeta ζ是一个常数(不随 n n n变化)。那么这个分组码的误码率在 n n n足够大的时候接近于1.
证明
仍然是考虑弱典型集。根据弱AEP-II中的(1),一个弱典型集中的序列的概率满足
2 − n ( H ( X ) + ϵ ) ≤ p ( x ) ≤ 2 − n ( H ( X ) − ϵ ) . 2^{-n(H(X)+\epsilon)}\leq p(\bm{x})\leq 2^{-n(H(X)-\epsilon)}. 2n(H(X)+ϵ)p(x)2n(H(X)ϵ).因此当我们有一个 A \bm{A} A的时候,我们假设它的序列全部是弱典型集中的序列,则 A \bm{A} A中序列的总的概率上界为
M 2 − n ( H ( X ) − ϵ ) . M2^{-n(H(X)-\epsilon)}. M2n(H(X)ϵ).码率为 H ( X ) − ζ H(X)-\zeta H(X)ζ,那么 M = 2 n ( H ( X ) − ζ ) M=2^{n(H(X)-\zeta)} M=2n(H(X)ζ)。于是我们假设 A \bm{A} A中的全部序列均为弱典型集最终的序列的话, A \bm{A} A中序列的总的概率上界为
2 n ( H ( X ) − ζ ) 2 − n ( H ( X ) − ϵ ) = 2 − n ( ζ − ϵ ) . 2^{n(H(X)-\zeta)}2^{-n(H(X)-\epsilon)}=2^{-n(\zeta-\epsilon)}. 2n(H(X)ζ)2n(H(X)ϵ)=2n(ζϵ).

观察上式,我们发现,如果将 ζ \zeta ζ取0,即我们编码方案的码率为 H ( X ) H(X) H(X),则 A \bm{A} A中序列的总的概率上界在 ϵ → 0 \epsilon\rightarrow 0 ϵ0的条件下逼近1。这意味着我们编码的序列几乎占据了所有序列,误码率逼近0。同样的,我们考虑将 ζ \zeta ζ ϵ \epsilon ϵ或者 − ϵ -\epsilon ϵ也能得到逼近0的误码率,在这种情况正是香农信源编码的正向部分。

在这里的假设,我们有 ζ \zeta ζ是个正常数,且不随 n n n变化。因此总是存在一个 ϵ \epsilon ϵ使得 ζ − ϵ > 0 \zeta-\epsilon>0 ζϵ>0。另一方面,我们其实还需要考虑假设 A \bm{A} A中的序列不全是弱典型集的序列。实际上,我们根据弱AEP-II可以知道,弱典型集的序列的概率几乎占据了整个概率,即接近于1,而非弱典型集序列的概率和满足
p ( X ∉ W [ X ] ϵ n ) < ϵ . p(X\notin W^{n}_{[X]\epsilon})<\epsilon. p(X/W[X]ϵn)<ϵ.这也是一个很小量。基于上面的分析, A \bm{A} A能够包含的序列的概率的总和一定是小于
2 − n ( ζ − ϵ ) + p ( X ∉ W [ X ] ϵ n ) 2^{-n(\zeta-\epsilon)}+p(X\notin W^{n}_{[X]\epsilon}) 2n(ζϵ)+p(X/W[X]ϵn)的。而这个式子在 n → ∞ n\rightarrow \infty n时逼近0,这意味着误码率逼近1。
■ \blacksquare

4. Efficient Source Coding

考虑长度为 n n n的二进制序列 Y = ( Y 1 , Y 2 , ⋯   , Y n ) \bm{Y}=(Y_1,Y_2,\cdots,Y_n) Y=(Y1,Y2,,Yn),他的熵满足不等式
H ( Y ) ≤ n , H(\bm{Y})\leq n, H(Y)n,当且仅当 Y i Y_i Yi相互独立(mutually independent)且在 { 0 , 1 } \{0,1\} {0,1}上均与分布时取等号。
证明
根据链式法则有
H ( Y ) = ∑ i = 1 n H ( Y i ∣ Y 1 , ⋯   , Y i − 1 ) . H(\bm{Y})=\sum^{n}_{i=1} H(Y_i|Y_1,\cdots,Y_{i-1}). H(Y)=i=1nH(YiY1,,Yi1).根据条件熵小于本原熵的定理,有
H ( Y ) ≤ ∑ i = 1 n H ( Y i ) . H(\bm{Y})\leq \sum^{n}_{i=1} H(Y_i). H(Y)i=1nH(Yi).取等号时有
p ( x 1 , x 2 ) = p ( x 1 ) p ( x 2 ) p ( x 1 , x 2 , x 3 ) = p ( x 1 , x 2 ) p ( x 3 ) ⋮ p ( x 1 , x 2 , ⋯   , x n ) = p ( x 1 , ⋯   , x n − 1 ) p ( x n ) p(x_1,x_2)=p(x_1)p(x_2)\\ p(x_1,x_2,x_3)=p(x_1,x_2)p(x_3)\\ \vdots\\ p(x_1,x_2,\cdots,x_n)=p(x_1,\cdots,x_{n-1})p(x_n)\\ p(x1,x2)=p(x1)p(x2)p(x1,x2,x3)=p(x1,x2)p(x3)p(x1,x2,,xn)=p(x1,,xn1)p(xn)进一步得到
p ( x 1 , x 2 , ⋯   , x n ) = ∏ i = 1 n p ( x i ) , p(x_1,x_2,\cdots,x_n)=\prod^{n}_{i=1}p(x_i), p(x1,x2,,xn)=i=1np(xi),即相互独立。

Y i Y_i Yi { 0 , 1 } \{0,1\} {0,1}上的均匀分布时有
H ( Y i ) = 1. H(Y_i)=1. H(Yi)=1.于是
H ( Y ) = n . H(\bm{Y})=n. H(Y)=n.

5. 强典型集

5.1 强典型集定义
考虑长度为 n n n的随机变量序列 ( X 1 , X 2 , ⋯   , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,,Xn),其中 X i X_i Xi独立同分布(i.i.d.),概率函数为 p ( x ) p(x) p(x)。一个序列记为 x = ( x 1 , x 2 , ⋯   , x n ) \bm{x}=(x_1,x_2,\cdots,x_n) x=(x1,x2,,xn),其中 x i ∈ χ x_i\in \chi xiχ。记 N ( x , x ) N(x,\bm{x}) N(x,x) x \bm{x} x x x x出现的次数。则强典型集 T [ X ] δ n T^{n}_{[X]\delta} T[X]δn是满足以下条件的序列的集合
∑ x ∈ χ ∣ N ( x , x ) n − p ( x ) ∣ ≤ δ , \sum_{x\in \chi} |\frac{N(x,\bm{x})}{n}-p(x)|\leq \delta, xχnN(x,x)p(x)δ,其中 δ \delta δ是一个足够小的正数。
■ \blacksquare

弱典型集通过比较 p ( x ) p(x) p(x) H ( X ) H(X) H(X)的关系定义,强典型集通过比较 N ( x , x ) N(x,\bm{x}) N(x,x) p ( x ) p(x) p(x)之间的关系定义。

5.2 强AEP
存在一个 η > 0 \eta>0 η>0,在 δ → ∞ \delta\rightarrow \infty δ时也 η → ∞ \eta\rightarrow \infty η,并使得下列不等式成立:
(1)
2 − n ( H ( X ) + η ) ≤ p ( x ) ≤ 2 − n ( H ( X ) − η ) 2^{-n(H(X)+\eta)}\leq p(\bm{x})\leq 2^{-n(H(X)-\eta)} 2n(H(X)+η)p(x)2n(H(X)η)
(2)
p ( X ∈ T [ X ] δ n ) > 1 − δ p(X\in T^{n}_{[X]\delta})>1-\delta p(XT[X]δn)>1δ
(3)
( 1 − δ ) 2 n ( H ( X ) − η ) ≤ ∣ T [ X ] δ n ∣ ≤ 2 n ( H ( X ) + η ) (1-\delta)2^{n(H(X)-\eta)}\leq |T^{n}_{[X]\delta}|\leq 2^{n(H(X)+\eta)} (1δ)2n(H(X)η)T[X]δn2n(H(X)+η)
证明
(1)的证明要通过强典型集基于 N ( x , x ) N(x,\bm{x}) N(x,x)的定义转换到 p ( x ) p(\bm{x}) p(x)上,于是
p ( x ) = ∏ i = 1 n p ( x i ) = ∏ x ∈ χ   p ( x ) N ( x , x ) p(\bm{x})=\prod^{n}_{i=1}p(x_i)=\prod_{x\in \chi} ~p(x)^{N(x,\bm{x})} p(x)=i=1np(xi)=xχ p(x)N(x,x)
log ⁡ p ( x ) = ∑ x ∈ χ N ( x , x ) log ⁡ p ( x ) = ∑ x ∈ χ ( N ( x , x ) − n p ( x ) + n p ( x ) ) log ⁡ p ( x ) = − n H ( X ) + n ∑ x ∈ χ ( N ( x , x ) n − p ( x ) ) log ⁡ p ( x ) \begin{aligned} \log p(\bm{x})&=\sum_{x\in \chi}N(x,\bm{x})\log p(x)\\ &=\sum_{x\in \chi}(N(x,\bm{x})-np(x)+np(x))\log p(x)\\ &=-nH(X)+n\sum_{x\in \chi}(\frac{N(x,\bm{x})}{n}-p(x))\log p(x) \end{aligned} logp(x)=xχN(x,x)logp(x)=xχ(N(x,x)np(x)+np(x))logp(x)=nH(X)+nxχ(nN(x,x)p(x))logp(x)根据强典型集的定义,有
∣ ∑ x ∈ χ ( N ( x , x ) n − p ( x ) ) ( − log ⁡ p ( x ) ) ∣ ≤ ∑ x ∈ χ ∣ N ( x , x ) n − p ( x ) ∣ ( − log ⁡ p ( x ) ) ≤ ∑ x ∈ χ ∣ N ( x , x ) n − p ( x ) ∣ ( − log ⁡ p m i n ( x ) ) ≤ δ ( − log ⁡ p m i n ( x ) ) . \begin{aligned} &|\sum_{x\in \chi}(\frac{N(x,\bm{x})}{n}-p(x))(-\log p(x))|\\ \leq & \sum_{x\in \chi}|\frac{N(x,\bm{x})}{n}-p(x)|(-\log p(x))\\ \leq & \sum_{x\in \chi}|\frac{N(x,\bm{x})}{n}-p(x)|(-\log p_{min}(x))\\ \leq & \delta (-\log p_{min}(x)) . \end{aligned} xχ(nN(x,x)p(x))(logp(x))xχnN(x,x)p(x)(logp(x))xχnN(x,x)p(x)(logpmin(x))δ(logpmin(x)). η = − δ log ⁡ p m i n ( x ) \eta=- \delta\log p_{min}(x) η=δlogpmin(x),显然当 δ → 0 \delta\rightarrow 0 δ0 η → 0 \eta\rightarrow 0 η0. 于是
− η ≤ ∑ x ∈ χ ( N ( x , x ) n − p ( x ) ) ( − log ⁡ p ( x ) ) ≤ η -\eta\leq \sum_{x\in \chi}(\frac{N(x,\bm{x})}{n}-p(x))(-\log p(x))\leq \eta ηxχ(nN(x,x)p(x))(logp(x))η因此
− n ( H ( X ) + η ) ≤ log ⁡ p ( x ) ≤ − n ( H ( X ) − η ) 2 − n ( H ( X ) + η ) ≤ p ( x ) ≤ 2 − n ( H ( X ) − η ) -n(H(X)+\eta)\leq \log p(\bm{x})\leq -n(H(X)-\eta)\\ 2^{-n(H(X)+\eta)}\leq p(\bm{x})\leq 2^{-n(H(X)-\eta)} n(H(X)+η)logp(x)n(H(X)η)2n(H(X)+η)p(x)2n(H(X)η)

(2)的证明同弱AEP的(2)一样要用到弱大数定律。考虑随机变量 B ( x ) B(x) B(x)满足 p ( B ( x ) = 1 ) = p ( x ) p(B(x)=1)=p(x) p(B(x)=1)=p(x) p ( B ( x ) ≠ 1 ) = 1 − p ( x ) p(B(x)\neq1)=1-p(x) p(B(x)=1)=1p(x)。显然他的期望为 E ( B ( x ) ) = p ( x ) E(B(x))=p(x) E(B(x))=p(x)。考虑 n n n个独立同分布的随机变量 B 1 ( x ) , B 2 ( x ) , ⋯   , B n ( x ) B_1(x),B_2(x),\cdots,B_n(x) B1(x),B2(x),,Bn(x),他们均满足 B ( x ) B(x) B(x)的概率函数。利用弱大数定理,当 n → ∞ n\rightarrow \infty n
p ( ∣ ∑ i = 1 n B i ( x ) n − p ( x ) ∣ ≤ ϵ ) > 1 − ϵ p(|\frac{\sum^{n}_{i=1}B_i(x)}{n}-p(x)|\leq \epsilon)>1-\epsilon p(ni=1nBi(x)p(x)ϵ)>1ϵ反之,
p ( ∣ ∑ i = 1 n B i ( x ) n − p ( x ) ∣ > ϵ ) < ϵ . p(|\frac{\sum^{n}_{i=1}B_i(x)}{n}-p(x)|> \epsilon)<\epsilon. p(ni=1nBi(x)p(x)>ϵ)<ϵ.因为 ϵ \epsilon ϵ是任意小的整数,所以我们也可以令 ϵ = δ ∣ χ ∣ \epsilon=\frac{\delta}{|\chi|} ϵ=χδ,有
p ( ∣ ∑ i = 1 n B i ( x ) n − p ( x ) ∣ > δ ∣ χ ∣ ) < δ ∣ χ ∣ p ( ∣ N ( x , x ) n − p ( x ) ∣ > δ ∣ χ ∣ ) < δ ∣ χ ∣ . (1) \tag{1} p(|\frac{\sum^{n}_{i=1}B_i(x)}{n}-p(x)|> \frac{\delta}{|\chi|})<\frac{\delta}{|\chi|}\\ p(|\frac{N(x,\bm{x})}{n}-p(x)|> \frac{\delta}{|\chi|})<\frac{\delta}{|\chi|}. p(ni=1nBi(x)p(x)>χδ)<χδp(nN(x,x)p(x)>χδ)<χδ.(1)考虑强典型集定义
p ( X ∈ T [ X ] δ n ) = p ( ∑ x ∈ χ ∣ N ( x , x ) n − p ( x ) ∣ ≤ δ ) = 1 − p ( ∑ x ∈ χ ∣ N ( x , x ) n − p ( x ) ∣ > δ ) ≥ 1 − p ( ∣ N ( x , x ) n − p ( x ) ∣ > δ ∣ χ ∣ ) , 反证 ≥ 1 − δ ∣ χ ∣ , 利用(1) ≥ 1 − δ \begin{aligned} &p(X\in T^{n}_{[X]\delta})\\ =&p(\sum_{x\in \chi} |\frac{N(x,\bm{x})}{n}-p(x)|\leq \delta)\\ =&1-p(\sum_{x\in \chi} |\frac{N(x,\bm{x})}{n}-p(x)|> \delta)\\ \geq&1-p(|\frac{N(x,\bm{x})}{n}-p(x)|> \frac{\delta}{|\chi|}),\text{反证}\\ \geq &1-\frac{\delta}{|\chi|},\text{利用(1)}\\ \geq &1-\delta \end{aligned} ==p(XT[X]δn)p(xχnN(x,x)p(x)δ)1p(xχnN(x,x)p(x)>δ)1p(nN(x,x)p(x)>χδ),反证1χδ,利用(1)1δ

■ \blacksquare

6. 强典型集vs弱典型集

6.1
给定一个序列,如果他属于强典型集 T [ X ] δ n T^{n}_{[X]\delta} T[X]δn,那么必然存在一个 η \eta η,满足当 δ → 0 \delta\rightarrow 0 δ0 η → 0 \eta\rightarrow 0 η0。我们根据这个 η \eta η可以找到一个弱典型集 W [ X ] η n W^{n}_{[X]\eta} W[X]ηn使得给定的序列在这个弱典型集中。
证明
根据强AEP中的(1)有
2 − n ( H ( X ) + η ) ≤ p ( x ) ≤ 2 − n ( H ( X ) − η ) 2^{-n(H(X)+\eta)}\leq p(\bm{x})\leq 2^{-n(H(X)-\eta)} 2n(H(X)+η)p(x)2n(H(X)η)显然有
∣ − log ⁡ p ( x ) n − H ( X ) ∣ ≤ η |-\frac{\log p(\bm{x})}{n}-H(X)|\leq \eta nlogp(x)H(X)η满足弱典型集的定义。
■ \blacksquare

6.1告诉我们,针对一个给定的序列,如果他存在某个强典型集中,也一定存在某个弱典型集中。但是,这并不代表一个弱典型集一定被某个强典型集包含。

6.2 强典型集序列的选取,是尽量使序列的 N ( x , x ) n \frac{N(x,\bm{x})}{n} nN(x,x)尽量接近 p ( x ) p(x) p(x),即某个 x x x的频率接近概率。而弱典型集序列的选取,是尽量使 − log ⁡ p ( x ) -\log p(\bm{x}) logp(x)接近 H ( X ) H(X) H(X)。参考参考文献的122页。

参考文献

[1] Raymond W. Yeung,Information Theory and Network Coding,2008。

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值