1. 弱大数定律
1.1 随机变量依概率收敛
考虑一个与
n
n
n有关的随机变量,通常是对
n
n
n个随机变量求和得到的新随机变(见后面的弱大数定律)量,记这个随机变量为
X
X
X。如果我们说这个随机变量“依概率收敛”于一个常量
u
u
u,则我们记为
∀
ϵ
>
0
,
lim
n
→
∞
p
(
∣
X
−
u
∣
<
ϵ
)
=
1.
{\forall}\epsilon>0, ~\lim\limits_{n\rightarrow \infty} p(|X-u|<\epsilon)=1.
∀ϵ>0, n→∞limp(∣X−u∣<ϵ)=1.
此外还有3个等价的表达:
∀
ϵ
>
0
,
lim
n
→
∞
p
(
∣
X
−
u
∣
≤
ϵ
)
=
1.
{\forall}\epsilon>0, ~\lim\limits_{n\rightarrow \infty} p(|X-u|\leq \epsilon)=1.
∀ϵ>0, n→∞limp(∣X−u∣≤ϵ)=1.
∀
ϵ
>
0
,
lim
n
→
∞
p
(
∣
X
−
u
∣
<
ϵ
)
>
1
−
ϵ
.
{\forall}\epsilon>0, ~\lim\limits_{n\rightarrow \infty} p(|X-u|< \epsilon)>1-\epsilon.
∀ϵ>0, n→∞limp(∣X−u∣<ϵ)>1−ϵ.
∀
ϵ
>
0
,
lim
n
→
∞
p
(
∣
X
−
u
∣
≤
ϵ
)
>
1
−
ϵ
.
{\forall}\epsilon>0, ~\lim\limits_{n\rightarrow \infty} p(|X-u|\leq \epsilon)>1-\epsilon.
∀ϵ>0, n→∞limp(∣X−u∣≤ϵ)>1−ϵ.
■
\blacksquare
■
1.2 弱大数定律
考虑
n
n
n个独立同分布(i.i.d.)的随机变量
X
1
,
X
2
,
⋯
,
X
n
X_1,X_2,\cdots,X_n
X1,X2,⋯,Xn,他们的平均值均为
u
u
u,即
E
(
X
i
)
=
u
E(X_i)=u
E(Xi)=u。则考虑一个新的随机变量
X
=
X
1
+
X
2
+
⋯
+
X
n
n
.
X=\frac{X_1+X_2+\cdots+X_n}{n}.
X=nX1+X2+⋯+Xn.则弱大数定律告诉我们,
X
X
X“依概率收敛”到
u
u
u。可以按照1.1写出四种表达式。
■
\blacksquare
■
1.3 形式复杂的随机变量与弱大数定律
一些随机变量可能是最简单的随机变量通过某种变化得来的,比如一个随机变量
X
X
X,通过某种函数
f
f
f,得到一个新的随机变量
f
(
X
)
f(X)
f(X)。这个函数甚至可以是这个随机变量自己的概率函数,
p
(
x
)
p(x)
p(x)。比如某个随机变量的概率函数为
p
(
x
)
=
{
1
/
3
,
x
<
0
2
/
3
,
x
≥
0
p(x)=\left\{ \begin{array}{l} 1/3,~x<0\\ 2/3,~x\geq0 \end{array} \right.
p(x)={1/3, x<02/3, x≥0那么有
p
(
X
)
=
{
1
/
3
,
X
<
0
2
/
3
,
X
≥
0
p(X)=\left\{ \begin{array}{l} 1/3,~X<0\\ 2/3,~X\geq0 \end{array} \right.
p(X)={1/3, X<02/3, X≥0这就是一个随机变量。因为最终的取值和概率有关(因为
X
X
X的取值和概率有关所以最后的函数取值也和概率有关)。
我们仍然考虑
n
n
n个i.i.d.的随机变量
X
1
,
X
2
,
⋯
,
X
n
X_1,X_2,\cdots,X_n
X1,X2,⋯,Xn,并且记他们的概率函数为
p
(
x
)
p(x)
p(x),平均值为
E
(
X
)
=
∑
x
p
(
x
)
x
=
u
E(X)=\sum_x p(x)x=u
E(X)=∑xp(x)x=u。现在考虑一组新的随机变量
−
log
p
(
X
1
)
,
−
log
p
(
X
2
)
,
⋯
,
−
log
p
(
X
n
)
-\log p(X_1), -\log p(X_2), \cdots, -\log p(X_n)
−logp(X1),−logp(X2),⋯,−logp(Xn),显然他们的平均值为
E
(
−
log
p
(
X
i
)
)
=
∑
x
−
p
(
x
)
log
p
(
x
)
=
H
(
X
)
.
E(-\log p(X_i))=\sum_x -p(x)\log p(x)=H(X).
E(−logp(Xi))=x∑−p(x)logp(x)=H(X).
我们定义新的随机变量
X
′
=
−
log
p
(
X
1
)
−
log
p
(
X
2
)
−
⋯
−
log
p
(
X
n
)
n
,
X^{'}=\frac{-\log p(X_1) -\log p(X_2)- \cdots -\log p(X_n)}{n},
X′=n−logp(X1)−logp(X2)−⋯−logp(Xn),然后应用1.2可以得到
∀
ϵ
>
0
,
lim
n
→
∞
p
(
∣
X
′
−
H
(
X
)
∣
<
ϵ
)
=
1.
{\forall} \epsilon>0,~\lim \limits_{n\rightarrow \infty} p(|X^{'}-H(X)|<\epsilon)=1.
∀ϵ>0, n→∞limp(∣X′−H(X)∣<ϵ)=1.
■
\blacksquare
■
2. 弱典型集
2.1 弱AEP-I
由1.3得到
∀
ϵ
>
0
,
lim
n
→
∞
p
(
∣
X
′
−
H
(
X
)
≤
ϵ
∣
)
>
1
−
ϵ
.
{\forall} \epsilon>0,~\lim\limits_{n\rightarrow \infty}p(|X^{'}-H(X)\leq \epsilon|)>1-\epsilon.
∀ϵ>0, n→∞limp(∣X′−H(X)≤ϵ∣)>1−ϵ.
■
\blacksquare
■
2.2 弱典型集定义
2.1中给出了一个由
ϵ
\epsilon
ϵ控制的不等式,并且依概率收敛意味着2.1只在
n
n
n足够大的时候成立。现实中
n
n
n可能并不是足够大,所以根据显示中有限的
n
n
n的大小,定义了弱典型集。
弱典型集仍然基于
n
n
n个i.i.d.随机变量
X
1
,
X
2
,
⋯
,
X
n
X_1,X_2,\cdots,X_n
X1,X2,⋯,Xn,记这些随机变量和随机变量
X
X
X的概率函数相同,于是有
p
(
x
i
)
=
p
(
x
)
p(x_i)=p(x)
p(xi)=p(x)。有了这些随机变量,我们定义一个序列为
x
=
(
x
1
,
x
2
,
⋯
,
x
n
)
.
\bm{x}=(x_1,x_2,\cdots,x_n).
x=(x1,x2,⋯,xn).注意这里是具体的取值序列,不再是随机变量。显然,目前对这个序列没有任何限制,它可以取到满足定义的所有值,接下来我们要做的就是给他加上限制,使得这个序列只可以取到某些值。
考虑一个比较小的正数
ϵ
\epsilon
ϵ,我们加上限制
∣
−
1
n
log
p
(
x
)
−
H
(
X
)
∣
≤
ϵ
.
|-\frac{1}{n}\log p(\bm{x})-H(X)|\leq \epsilon.
∣−n1logp(x)−H(X)∣≤ϵ.满足这个限制的
x
=
(
x
1
,
x
2
,
⋯
,
x
n
)
\bm{x}=(x_1,x_2,\cdots,x_n)
x=(x1,x2,⋯,xn)的所有取值构成了一个集合,这个集合就是弱典型集,他与
n
n
n,
X
X
X,
ϵ
\epsilon
ϵ有关,记为
W
[
X
]
ϵ
n
W^{n}_{[X]\epsilon}
W[X]ϵn.
■
\blacksquare
■
为什么要定义弱典型集,是为了将弱AEP-I更好地扩展成弱AEP-II。
2.3 弱AEP-II
(1) 根据弱典型集的定义,我们有
2
−
n
(
H
(
X
)
+
ϵ
)
≤
p
(
x
)
≤
2
−
n
(
H
(
X
)
−
ϵ
)
2^{-n(H(X)+\epsilon)}\leq p(\bm{x}) \leq 2^{-n(H(X)-\epsilon)}
2−n(H(X)+ϵ)≤p(x)≤2−n(H(X)−ϵ)弱典型集本来就是对概率函数的取值进行约束得到的一个集合,因此弱典型集中的序列的概率有上界和下界。
(2)
lim
n
→
∞
p
(
X
′
∈
W
[
X
]
ϵ
n
)
>
1
−
ϵ
.
\lim\limits_{n\rightarrow \infty}p(X^{'}\in W^{n}_{[X]\epsilon})>1-\epsilon.
n→∞limp(X′∈W[X]ϵn)>1−ϵ.2.1中定义的随机变量取得弱典型集中序列的概率大于
1
−
ϵ
1-\epsilon
1−ϵ。
(3)关注弱典型集的大小,当
n
→
∞
n\rightarrow \infty
n→∞时
(
1
−
ϵ
)
2
n
(
H
(
X
)
−
ϵ
)
≤
∣
W
[
X
]
ϵ
n
∣
≤
2
n
(
H
(
X
)
+
ϵ
)
(1-\epsilon)2^{n(H(X)-\epsilon)}\leq|W^{n}_{[X]\epsilon}|\leq 2^{n(H(X)+\epsilon)}
(1−ϵ)2n(H(X)−ϵ)≤∣W[X]ϵn∣≤2n(H(X)+ϵ)这里的上下界由(1)中
p
(
x
)
p(\bm{x})
p(x)的上下界推导得来,并且反向对应(这里的上界对应(1)的下界)。
证明:
(1)不用证明,打开弱典型集定义的绝对值显然得到。
(2)通过概念说明。由若AEP-I我们知道,对于随机变量
X
′
X^{'}
X′,有
∀
ϵ
>
0
,
lim
n
→
∞
p
(
∣
X
′
−
H
(
X
)
≤
ϵ
∣
)
>
1
−
ϵ
.
{\forall} \epsilon>0,~\lim\limits_{n\rightarrow \infty}p(|X^{'}-H(X)\leq \epsilon|)>1-\epsilon.
∀ϵ>0, n→∞limp(∣X′−H(X)≤ϵ∣)>1−ϵ.在这里,我们实际上确定了
ϵ
\epsilon
ϵ,然后确定相应的
W
[
X
]
ϵ
n
W^{n}_{[X]\epsilon}
W[X]ϵn,因此上式我们其实是对于一个确定的
ϵ
\epsilon
ϵ,有
lim
n
→
∞
p
(
∣
X
′
−
H
(
X
)
≤
ϵ
∣
)
>
1
−
ϵ
.
\lim\limits_{n\rightarrow \infty}p(|X^{'}-H(X)\leq \epsilon|)>1-\epsilon.
n→∞limp(∣X′−H(X)≤ϵ∣)>1−ϵ.这个式子的实际意义是:随机变量
X
′
X^{'}
X′可以取到一些与
H
(
X
)
H(X)
H(X)的绝对值相差小于等于
ϵ
\epsilon
ϵ的序列值,取到这些序列值的的概率的和大于
1
−
ϵ
1-\epsilon
1−ϵ。通过弱典型集的定义我们知道,这里的概率就是
X
′
X^{'}
X′取到弱典型集
W
[
X
]
ϵ
n
W^{n}_{[X]\epsilon}
W[X]ϵn中序列值的概率。因此有
lim
n
→
∞
p
(
X
′
∈
W
[
X
]
ϵ
n
)
>
1
−
ϵ
.
\lim\limits_{n\rightarrow \infty}p(X^{'}\in W^{n}_{[X]\epsilon})>1-\epsilon.
n→∞limp(X′∈W[X]ϵn)>1−ϵ.(2)实际上是弱AEP-I结合弱典型集概念的一个重表示。
下面证明(3)。弱典型集的大小与其中每个序列的概率密切相关,通过(1)中的概率下界我们知道每个序列的概率满足
2
−
n
(
H
(
X
)
+
ϵ
)
≤
p
(
x
)
.
2^{-n(H(X)+\epsilon)}\leq p(\bm{x}).
2−n(H(X)+ϵ)≤p(x).所有弱典型集中序列的概率和小于等于1(如果等于1说明弱典型集几乎包括了所有序列)。因此有
2
−
n
(
H
(
X
)
+
ϵ
)
∣
W
[
X
]
ϵ
n
∣
≤
p
(
W
[
X
]
ϵ
n
)
≤
1
,
2^{-n(H(X)+\epsilon)}|W^{n}_{[X]\epsilon}|\leq p(W^{n}_{[X]\epsilon})\leq 1,
2−n(H(X)+ϵ)∣W[X]ϵn∣≤p(W[X]ϵn)≤1,得到
∣
W
[
X
]
ϵ
n
∣
≤
2
n
(
H
(
X
)
+
ϵ
)
.
|W^{n}_{[X]\epsilon}|\leq 2^{n(H(X)+\epsilon)}.
∣W[X]ϵn∣≤2n(H(X)+ϵ).另一边通过相似的方式,结合(2)可以证明得到。可见,弱典型集的大小上下界和(1)中弱典型集每个向量的概率上下界是反向对应的。
■
\blacksquare
■
弱典型集意义何在?弱AEP-II如何给出有意义的结论?
2.4 弱典型集的大小占比以及概率占比。
通过弱AEP-II的(2)我们可以看出,弱典型集的序列发生的概率基本上占了所有序列发生的概率的和。这是建立在我们取的较小的
ϵ
\epsilon
ϵ的前提下,保证了概率大于
1
−
ϵ
1-\epsilon
1−ϵ,如果
ϵ
\epsilon
ϵ取值过大,实际上既没办法保证弱典型集中序列概率占比大。比如
ϵ
\epsilon
ϵ取0.6,那只能保证弱典型集中序列概率和大于0.4。
我们确定了发生概率大的序列有什么用呢?在信源编码的时候,我们如果对发生概率比较大的序列用更高级的更精巧的编码方法,保证错误率很小,甚至没有错误,那么对于整体传输过程,整体错误率就很小,甚至没有(无限接近于0)。但是,如果这些占据很大概率的序列的集合很大,甚至大到几乎占据了整个可能的序列的空间,那其实上述的讨论是没有意义的,相当于我们对所有可能序列都需要高级且精巧的编码。而我们想要的理想情况是:某些序列的发生概率十分高,这些序列数量很少,我们只需要照顾好这些序列,其他发生概率小的序列甚至不用编码,我们都能得到很好误码率。
所以弱典型集的大小,或者说相对于整个可能的序列的大小的占比有多少呢?根据弱AEP-II的(2)的(3)我们知道
(
1
−
ϵ
)
2
n
(
H
(
X
)
−
ϵ
)
≤
∣
W
[
X
]
ϵ
n
∣
≤
2
n
(
H
(
X
)
+
ϵ
)
(1-\epsilon)2^{n(H(X)-\epsilon)}\leq|W^{n}_{[X]\epsilon}|\leq 2^{n(H(X)+\epsilon)}
(1−ϵ)2n(H(X)−ϵ)≤∣W[X]ϵn∣≤2n(H(X)+ϵ)而整个可能序列的集合大小为
∣
χ
∣
n
|\chi|^n
∣χ∣n(
χ
\chi
χ是序列中每个元素的取值取值空间,即
x
i
∈
χ
x_i\in \chi
xi∈χ)。上面的不等式同时除以
∣
χ
∣
n
|\chi|^n
∣χ∣n得到(注意
∣
χ
∣
n
=
2
n
log
∣
χ
∣
|\chi|^n=2^{n\log |\chi|}
∣χ∣n=2nlog∣χ∣)
(
1
−
ϵ
)
2
n
(
H
(
X
)
−
ϵ
−
log
∣
χ
∣
)
≤
∣
W
[
X
]
ϵ
n
∣
∣
χ
∣
n
≤
2
n
(
H
(
X
)
+
ϵ
−
log
∣
χ
∣
)
.
(1-\epsilon)2^{n(H(X)-\epsilon-\log|\chi|)}\leq \frac{|W^{n}_{[X]\epsilon}|}{|\chi|^n} \leq 2^{n(H(X)+\epsilon-\log|\chi|)}.
(1−ϵ)2n(H(X)−ϵ−log∣χ∣)≤∣χ∣n∣W[X]ϵn∣≤2n(H(X)+ϵ−log∣χ∣).由熵的上界可知
H
(
X
)
−
log
∣
χ
∣
<
0
H(X)-\log|\chi|<0
H(X)−log∣χ∣<0,因此在
ϵ
\epsilon
ϵ足够小的时候,如果能保证
H
(
X
)
+
ϵ
−
log
∣
χ
∣
<
0
H(X)+\epsilon-\log|\chi|<0
H(X)+ϵ−log∣χ∣<0,那么上面不等式的最大值必然在
n
→
∞
n\rightarrow \infty
n→∞时逼近0,这意味着弱典型集在整个可能的序列空间的占比很小。
■
\blacksquare
■
3. 香农信源编码定理
前面讨论弱典型集,就是为了引出香农信源编码理论。实际上,香农信源编码理论的正向部分,就是选取了弱典型集中的码字进行编码。反向部分也是利用弱AEP进行证明。
对于信源编码,我们考虑
n
n
n个随机变量的编码,即对随机序列
(
X
1
,
X
2
,
⋯
,
X
n
)
(X_1,X_2,\cdots,X_n)
(X1,X2,⋯,Xn)进行编码。其中,
x
i
∈
χ
x_i\in \chi
xi∈χ,所以有
(
x
1
,
x
2
,
⋯
,
x
n
)
∈
χ
n
.
(x_1,x_2,\cdots,x_n)\in \chi^n.
(x1,x2,⋯,xn)∈χn.如前面讨论的,为了保证误码率为0,我们可以对整个
χ
n
\chi^n
χn中的序列全部进行编码,可是这样效率最低。最理想的信源编码只对
χ
n
\chi^n
χn中部分序列进行编码,剩下的序列可以忽略,达到对整体误码率影响很小的结果。我们记我们只对
χ
\chi
χ的一个子集
A
\bm{A}
A进行编码,于是
A
⊂
χ
n
\bm{A}\subset \chi^n
A⊂χn。记这个子集的序列被编码成的码字集合的大小为
M
=
∣
A
∣
M=|\bm{A}|
M=∣A∣. 因为表示这
M
M
M个码字需要约
log
M
\log M
logM个比特,所以定义码率(coding rate)为
log
M
n
.
\frac{\log M}{n}.
nlogM.显然,码率越小(大量的序列不用考虑,直接丢掉),我们的编码越高效。
香农信源编码理论讨论的是如何选取
A
\bm{A}
A,能够完成误码率逼近0且码率尽量小的高效编码。
3.1 香农信源编码正向部分(direct part)
如果允许误码率为任意小量(any small quantity),存在一个分组码(block code)在
n
n
n足够大(即接近于无穷大)的时候任意接近于熵
H
(
X
)
H(X)
H(X)。
证明:
我们证明,其实令
A
=
W
[
X
]
ϵ
n
\bm{A}=W^{n}_{[X]\epsilon}
A=W[X]ϵn就可以得到一个满足条件的编码方案。
根据弱AEP-II中的(3),我们知道有
(
1
−
ϵ
)
2
n
(
H
(
X
)
−
ϵ
)
≤
M
=
∣
W
[
X
]
ϵ
n
∣
≤
2
n
(
H
(
X
)
+
ϵ
)
.
(1-\epsilon)2^{n(H(X)-\epsilon)}\leq M=|W^{n}_{[X]\epsilon}|\leq 2^{n(H(X)+\epsilon)}.
(1−ϵ)2n(H(X)−ϵ)≤M=∣W[X]ϵn∣≤2n(H(X)+ϵ).于是码率满足
log
(
1
−
ϵ
)
n
+
(
H
(
X
)
−
ϵ
)
≤
log
M
n
≤
H
(
X
)
+
ϵ
.
\frac{\log (1-\epsilon)}{n}+(H(X)-\epsilon)\leq \frac{\log M}{n}\leq H(X)+\epsilon.
nlog(1−ϵ)+(H(X)−ϵ)≤nlogM≤H(X)+ϵ.显然,当
ϵ
\epsilon
ϵ足够小的时候,码率接近
H
(
X
)
H(X)
H(X)。这保证了我们的编码足够高效,即考虑的序列大小
A
\bm{A}
A足够小。下面我们还需要证明在这种编码下,误码率也接近于0.
根据弱AEP-II中的(2),我们知道在
n
→
∞
n\rightarrow \infty
n→∞时
p
(
X
∈
W
[
X
]
ϵ
n
)
>
1
−
ϵ
,
p(X\in W^{n}_{[X]\epsilon})>1-\epsilon,
p(X∈W[X]ϵn)>1−ϵ,这意味着误码率
P
e
<
ϵ
.
P_e< \epsilon.
Pe<ϵ.当
ϵ
\epsilon
ϵ足够小的时候,误码率为0.
■
\blacksquare
■
香浓编码定理的正向部分告诉了我们,只考虑弱典型集中的序列,我们可以在 n n n足够大并且 ϵ \epsilon ϵ足够小的时候得到一个码率接近 H ( X ) H(X) H(X)并且误码率接近0的信源编码方案。这里码率与 H ( X ) H(X) H(X)、误码率与0的接近程度,收到 n n n的大小和 ϵ \epsilon ϵ大小的影响。
有了香农信源编码定理的正向部分,我们自然会有一个疑问,是否我们还可以进一步压缩码率,找到一个码率小于 H ( X ) H(X) H(X)并且误码率几乎为0的信源编码方案呢。香农信源编码的反向部分就揭示了这个问题的答案。
3.2 香农信源编码反向部分(converse part)
如果一个分组码的信源编码的码率为
H
(
X
)
−
ζ
,
ζ
>
0
H(X)-\zeta, \zeta>0
H(X)−ζ,ζ>0其中
ζ
\zeta
ζ是一个常数(不随
n
n
n变化)。那么这个分组码的误码率在
n
n
n足够大的时候接近于1.
证明:
仍然是考虑弱典型集。根据弱AEP-II中的(1),一个弱典型集中的序列的概率满足
2
−
n
(
H
(
X
)
+
ϵ
)
≤
p
(
x
)
≤
2
−
n
(
H
(
X
)
−
ϵ
)
.
2^{-n(H(X)+\epsilon)}\leq p(\bm{x})\leq 2^{-n(H(X)-\epsilon)}.
2−n(H(X)+ϵ)≤p(x)≤2−n(H(X)−ϵ).因此当我们有一个
A
\bm{A}
A的时候,我们假设它的序列全部是弱典型集中的序列,则
A
\bm{A}
A中序列的总的概率上界为
M
2
−
n
(
H
(
X
)
−
ϵ
)
.
M2^{-n(H(X)-\epsilon)}.
M2−n(H(X)−ϵ).码率为
H
(
X
)
−
ζ
H(X)-\zeta
H(X)−ζ,那么
M
=
2
n
(
H
(
X
)
−
ζ
)
M=2^{n(H(X)-\zeta)}
M=2n(H(X)−ζ)。于是我们假设
A
\bm{A}
A中的全部序列均为弱典型集最终的序列的话,
A
\bm{A}
A中序列的总的概率上界为
2
n
(
H
(
X
)
−
ζ
)
2
−
n
(
H
(
X
)
−
ϵ
)
=
2
−
n
(
ζ
−
ϵ
)
.
2^{n(H(X)-\zeta)}2^{-n(H(X)-\epsilon)}=2^{-n(\zeta-\epsilon)}.
2n(H(X)−ζ)2−n(H(X)−ϵ)=2−n(ζ−ϵ).
观察上式,我们发现,如果将 ζ \zeta ζ取0,即我们编码方案的码率为 H ( X ) H(X) H(X),则 A \bm{A} A中序列的总的概率上界在 ϵ → 0 \epsilon\rightarrow 0 ϵ→0的条件下逼近1。这意味着我们编码的序列几乎占据了所有序列,误码率逼近0。同样的,我们考虑将 ζ \zeta ζ取 ϵ \epsilon ϵ或者 − ϵ -\epsilon −ϵ也能得到逼近0的误码率,在这种情况正是香农信源编码的正向部分。
在这里的假设,我们有
ζ
\zeta
ζ是个正常数,且不随
n
n
n变化。因此总是存在一个
ϵ
\epsilon
ϵ使得
ζ
−
ϵ
>
0
\zeta-\epsilon>0
ζ−ϵ>0。另一方面,我们其实还需要考虑假设
A
\bm{A}
A中的序列不全是弱典型集的序列。实际上,我们根据弱AEP-II可以知道,弱典型集的序列的概率几乎占据了整个概率,即接近于1,而非弱典型集序列的概率和满足
p
(
X
∉
W
[
X
]
ϵ
n
)
<
ϵ
.
p(X\notin W^{n}_{[X]\epsilon})<\epsilon.
p(X∈/W[X]ϵn)<ϵ.这也是一个很小量。基于上面的分析,
A
\bm{A}
A能够包含的序列的概率的总和一定是小于
2
−
n
(
ζ
−
ϵ
)
+
p
(
X
∉
W
[
X
]
ϵ
n
)
2^{-n(\zeta-\epsilon)}+p(X\notin W^{n}_{[X]\epsilon})
2−n(ζ−ϵ)+p(X∈/W[X]ϵn)的。而这个式子在
n
→
∞
n\rightarrow \infty
n→∞时逼近0,这意味着误码率逼近1。
■
\blacksquare
■
4. Efficient Source Coding
考虑长度为
n
n
n的二进制序列
Y
=
(
Y
1
,
Y
2
,
⋯
,
Y
n
)
\bm{Y}=(Y_1,Y_2,\cdots,Y_n)
Y=(Y1,Y2,⋯,Yn),他的熵满足不等式
H
(
Y
)
≤
n
,
H(\bm{Y})\leq n,
H(Y)≤n,当且仅当
Y
i
Y_i
Yi相互独立(mutually independent)且在
{
0
,
1
}
\{0,1\}
{0,1}上均与分布时取等号。
证明:
根据链式法则有
H
(
Y
)
=
∑
i
=
1
n
H
(
Y
i
∣
Y
1
,
⋯
,
Y
i
−
1
)
.
H(\bm{Y})=\sum^{n}_{i=1} H(Y_i|Y_1,\cdots,Y_{i-1}).
H(Y)=i=1∑nH(Yi∣Y1,⋯,Yi−1).根据条件熵小于本原熵的定理,有
H
(
Y
)
≤
∑
i
=
1
n
H
(
Y
i
)
.
H(\bm{Y})\leq \sum^{n}_{i=1} H(Y_i).
H(Y)≤i=1∑nH(Yi).取等号时有
p
(
x
1
,
x
2
)
=
p
(
x
1
)
p
(
x
2
)
p
(
x
1
,
x
2
,
x
3
)
=
p
(
x
1
,
x
2
)
p
(
x
3
)
⋮
p
(
x
1
,
x
2
,
⋯
,
x
n
)
=
p
(
x
1
,
⋯
,
x
n
−
1
)
p
(
x
n
)
p(x_1,x_2)=p(x_1)p(x_2)\\ p(x_1,x_2,x_3)=p(x_1,x_2)p(x_3)\\ \vdots\\ p(x_1,x_2,\cdots,x_n)=p(x_1,\cdots,x_{n-1})p(x_n)\\
p(x1,x2)=p(x1)p(x2)p(x1,x2,x3)=p(x1,x2)p(x3)⋮p(x1,x2,⋯,xn)=p(x1,⋯,xn−1)p(xn)进一步得到
p
(
x
1
,
x
2
,
⋯
,
x
n
)
=
∏
i
=
1
n
p
(
x
i
)
,
p(x_1,x_2,\cdots,x_n)=\prod^{n}_{i=1}p(x_i),
p(x1,x2,⋯,xn)=i=1∏np(xi),即相互独立。
当
Y
i
Y_i
Yi取
{
0
,
1
}
\{0,1\}
{0,1}上的均匀分布时有
H
(
Y
i
)
=
1.
H(Y_i)=1.
H(Yi)=1.于是
H
(
Y
)
=
n
.
H(\bm{Y})=n.
H(Y)=n.
5. 强典型集
5.1 强典型集定义
考虑长度为
n
n
n的随机变量序列
(
X
1
,
X
2
,
⋯
,
X
n
)
(X_1,X_2,\cdots,X_n)
(X1,X2,⋯,Xn),其中
X
i
X_i
Xi独立同分布(i.i.d.),概率函数为
p
(
x
)
p(x)
p(x)。一个序列记为
x
=
(
x
1
,
x
2
,
⋯
,
x
n
)
\bm{x}=(x_1,x_2,\cdots,x_n)
x=(x1,x2,⋯,xn),其中
x
i
∈
χ
x_i\in \chi
xi∈χ。记
N
(
x
,
x
)
N(x,\bm{x})
N(x,x)为
x
\bm{x}
x中
x
x
x出现的次数。则强典型集
T
[
X
]
δ
n
T^{n}_{[X]\delta}
T[X]δn是满足以下条件的序列的集合
∑
x
∈
χ
∣
N
(
x
,
x
)
n
−
p
(
x
)
∣
≤
δ
,
\sum_{x\in \chi} |\frac{N(x,\bm{x})}{n}-p(x)|\leq \delta,
x∈χ∑∣nN(x,x)−p(x)∣≤δ,其中
δ
\delta
δ是一个足够小的正数。
■
\blacksquare
■
弱典型集通过比较 p ( x ) p(x) p(x)与 H ( X ) H(X) H(X)的关系定义,强典型集通过比较 N ( x , x ) N(x,\bm{x}) N(x,x)与 p ( x ) p(x) p(x)之间的关系定义。
5.2 强AEP
存在一个
η
>
0
\eta>0
η>0,在
δ
→
∞
\delta\rightarrow \infty
δ→∞时也
η
→
∞
\eta\rightarrow \infty
η→∞,并使得下列不等式成立:
(1)
2
−
n
(
H
(
X
)
+
η
)
≤
p
(
x
)
≤
2
−
n
(
H
(
X
)
−
η
)
2^{-n(H(X)+\eta)}\leq p(\bm{x})\leq 2^{-n(H(X)-\eta)}
2−n(H(X)+η)≤p(x)≤2−n(H(X)−η)
(2)
p
(
X
∈
T
[
X
]
δ
n
)
>
1
−
δ
p(X\in T^{n}_{[X]\delta})>1-\delta
p(X∈T[X]δn)>1−δ
(3)
(
1
−
δ
)
2
n
(
H
(
X
)
−
η
)
≤
∣
T
[
X
]
δ
n
∣
≤
2
n
(
H
(
X
)
+
η
)
(1-\delta)2^{n(H(X)-\eta)}\leq |T^{n}_{[X]\delta}|\leq 2^{n(H(X)+\eta)}
(1−δ)2n(H(X)−η)≤∣T[X]δn∣≤2n(H(X)+η)
证明:
(1)的证明要通过强典型集基于
N
(
x
,
x
)
N(x,\bm{x})
N(x,x)的定义转换到
p
(
x
)
p(\bm{x})
p(x)上,于是
p
(
x
)
=
∏
i
=
1
n
p
(
x
i
)
=
∏
x
∈
χ
p
(
x
)
N
(
x
,
x
)
p(\bm{x})=\prod^{n}_{i=1}p(x_i)=\prod_{x\in \chi} ~p(x)^{N(x,\bm{x})}
p(x)=i=1∏np(xi)=x∈χ∏ p(x)N(x,x)
log
p
(
x
)
=
∑
x
∈
χ
N
(
x
,
x
)
log
p
(
x
)
=
∑
x
∈
χ
(
N
(
x
,
x
)
−
n
p
(
x
)
+
n
p
(
x
)
)
log
p
(
x
)
=
−
n
H
(
X
)
+
n
∑
x
∈
χ
(
N
(
x
,
x
)
n
−
p
(
x
)
)
log
p
(
x
)
\begin{aligned} \log p(\bm{x})&=\sum_{x\in \chi}N(x,\bm{x})\log p(x)\\ &=\sum_{x\in \chi}(N(x,\bm{x})-np(x)+np(x))\log p(x)\\ &=-nH(X)+n\sum_{x\in \chi}(\frac{N(x,\bm{x})}{n}-p(x))\log p(x) \end{aligned}
logp(x)=x∈χ∑N(x,x)logp(x)=x∈χ∑(N(x,x)−np(x)+np(x))logp(x)=−nH(X)+nx∈χ∑(nN(x,x)−p(x))logp(x)根据强典型集的定义,有
∣
∑
x
∈
χ
(
N
(
x
,
x
)
n
−
p
(
x
)
)
(
−
log
p
(
x
)
)
∣
≤
∑
x
∈
χ
∣
N
(
x
,
x
)
n
−
p
(
x
)
∣
(
−
log
p
(
x
)
)
≤
∑
x
∈
χ
∣
N
(
x
,
x
)
n
−
p
(
x
)
∣
(
−
log
p
m
i
n
(
x
)
)
≤
δ
(
−
log
p
m
i
n
(
x
)
)
.
\begin{aligned} &|\sum_{x\in \chi}(\frac{N(x,\bm{x})}{n}-p(x))(-\log p(x))|\\ \leq & \sum_{x\in \chi}|\frac{N(x,\bm{x})}{n}-p(x)|(-\log p(x))\\ \leq & \sum_{x\in \chi}|\frac{N(x,\bm{x})}{n}-p(x)|(-\log p_{min}(x))\\ \leq & \delta (-\log p_{min}(x)) . \end{aligned}
≤≤≤∣x∈χ∑(nN(x,x)−p(x))(−logp(x))∣x∈χ∑∣nN(x,x)−p(x)∣(−logp(x))x∈χ∑∣nN(x,x)−p(x)∣(−logpmin(x))δ(−logpmin(x)).记
η
=
−
δ
log
p
m
i
n
(
x
)
\eta=- \delta\log p_{min}(x)
η=−δlogpmin(x),显然当
δ
→
0
\delta\rightarrow 0
δ→0时
η
→
0
\eta\rightarrow 0
η→0. 于是
−
η
≤
∑
x
∈
χ
(
N
(
x
,
x
)
n
−
p
(
x
)
)
(
−
log
p
(
x
)
)
≤
η
-\eta\leq \sum_{x\in \chi}(\frac{N(x,\bm{x})}{n}-p(x))(-\log p(x))\leq \eta
−η≤x∈χ∑(nN(x,x)−p(x))(−logp(x))≤η因此
−
n
(
H
(
X
)
+
η
)
≤
log
p
(
x
)
≤
−
n
(
H
(
X
)
−
η
)
2
−
n
(
H
(
X
)
+
η
)
≤
p
(
x
)
≤
2
−
n
(
H
(
X
)
−
η
)
-n(H(X)+\eta)\leq \log p(\bm{x})\leq -n(H(X)-\eta)\\ 2^{-n(H(X)+\eta)}\leq p(\bm{x})\leq 2^{-n(H(X)-\eta)}
−n(H(X)+η)≤logp(x)≤−n(H(X)−η)2−n(H(X)+η)≤p(x)≤2−n(H(X)−η)
(2)的证明同弱AEP的(2)一样要用到弱大数定律。考虑随机变量
B
(
x
)
B(x)
B(x)满足
p
(
B
(
x
)
=
1
)
=
p
(
x
)
p(B(x)=1)=p(x)
p(B(x)=1)=p(x)和
p
(
B
(
x
)
≠
1
)
=
1
−
p
(
x
)
p(B(x)\neq1)=1-p(x)
p(B(x)=1)=1−p(x)。显然他的期望为
E
(
B
(
x
)
)
=
p
(
x
)
E(B(x))=p(x)
E(B(x))=p(x)。考虑
n
n
n个独立同分布的随机变量
B
1
(
x
)
,
B
2
(
x
)
,
⋯
,
B
n
(
x
)
B_1(x),B_2(x),\cdots,B_n(x)
B1(x),B2(x),⋯,Bn(x),他们均满足
B
(
x
)
B(x)
B(x)的概率函数。利用弱大数定理,当
n
→
∞
n\rightarrow \infty
n→∞时
p
(
∣
∑
i
=
1
n
B
i
(
x
)
n
−
p
(
x
)
∣
≤
ϵ
)
>
1
−
ϵ
p(|\frac{\sum^{n}_{i=1}B_i(x)}{n}-p(x)|\leq \epsilon)>1-\epsilon
p(∣n∑i=1nBi(x)−p(x)∣≤ϵ)>1−ϵ反之,
p
(
∣
∑
i
=
1
n
B
i
(
x
)
n
−
p
(
x
)
∣
>
ϵ
)
<
ϵ
.
p(|\frac{\sum^{n}_{i=1}B_i(x)}{n}-p(x)|> \epsilon)<\epsilon.
p(∣n∑i=1nBi(x)−p(x)∣>ϵ)<ϵ.因为
ϵ
\epsilon
ϵ是任意小的整数,所以我们也可以令
ϵ
=
δ
∣
χ
∣
\epsilon=\frac{\delta}{|\chi|}
ϵ=∣χ∣δ,有
p
(
∣
∑
i
=
1
n
B
i
(
x
)
n
−
p
(
x
)
∣
>
δ
∣
χ
∣
)
<
δ
∣
χ
∣
p
(
∣
N
(
x
,
x
)
n
−
p
(
x
)
∣
>
δ
∣
χ
∣
)
<
δ
∣
χ
∣
.
(1)
\tag{1} p(|\frac{\sum^{n}_{i=1}B_i(x)}{n}-p(x)|> \frac{\delta}{|\chi|})<\frac{\delta}{|\chi|}\\ p(|\frac{N(x,\bm{x})}{n}-p(x)|> \frac{\delta}{|\chi|})<\frac{\delta}{|\chi|}.
p(∣n∑i=1nBi(x)−p(x)∣>∣χ∣δ)<∣χ∣δp(∣nN(x,x)−p(x)∣>∣χ∣δ)<∣χ∣δ.(1)考虑强典型集定义
p
(
X
∈
T
[
X
]
δ
n
)
=
p
(
∑
x
∈
χ
∣
N
(
x
,
x
)
n
−
p
(
x
)
∣
≤
δ
)
=
1
−
p
(
∑
x
∈
χ
∣
N
(
x
,
x
)
n
−
p
(
x
)
∣
>
δ
)
≥
1
−
p
(
∣
N
(
x
,
x
)
n
−
p
(
x
)
∣
>
δ
∣
χ
∣
)
,
反证
≥
1
−
δ
∣
χ
∣
,
利用(1)
≥
1
−
δ
\begin{aligned} &p(X\in T^{n}_{[X]\delta})\\ =&p(\sum_{x\in \chi} |\frac{N(x,\bm{x})}{n}-p(x)|\leq \delta)\\ =&1-p(\sum_{x\in \chi} |\frac{N(x,\bm{x})}{n}-p(x)|> \delta)\\ \geq&1-p(|\frac{N(x,\bm{x})}{n}-p(x)|> \frac{\delta}{|\chi|}),\text{反证}\\ \geq &1-\frac{\delta}{|\chi|},\text{利用(1)}\\ \geq &1-\delta \end{aligned}
==≥≥≥p(X∈T[X]δn)p(x∈χ∑∣nN(x,x)−p(x)∣≤δ)1−p(x∈χ∑∣nN(x,x)−p(x)∣>δ)1−p(∣nN(x,x)−p(x)∣>∣χ∣δ),反证1−∣χ∣δ,利用(1)1−δ
■ \blacksquare ■
6. 强典型集vs弱典型集
6.1
给定一个序列,如果他属于强典型集
T
[
X
]
δ
n
T^{n}_{[X]\delta}
T[X]δn,那么必然存在一个
η
\eta
η,满足当
δ
→
0
\delta\rightarrow 0
δ→0时
η
→
0
\eta\rightarrow 0
η→0。我们根据这个
η
\eta
η可以找到一个弱典型集
W
[
X
]
η
n
W^{n}_{[X]\eta}
W[X]ηn使得给定的序列在这个弱典型集中。
证明:
根据强AEP中的(1)有
2
−
n
(
H
(
X
)
+
η
)
≤
p
(
x
)
≤
2
−
n
(
H
(
X
)
−
η
)
2^{-n(H(X)+\eta)}\leq p(\bm{x})\leq 2^{-n(H(X)-\eta)}
2−n(H(X)+η)≤p(x)≤2−n(H(X)−η)显然有
∣
−
log
p
(
x
)
n
−
H
(
X
)
∣
≤
η
|-\frac{\log p(\bm{x})}{n}-H(X)|\leq \eta
∣−nlogp(x)−H(X)∣≤η满足弱典型集的定义。
■
\blacksquare
■
6.1告诉我们,针对一个给定的序列,如果他存在某个强典型集中,也一定存在某个弱典型集中。但是,这并不代表一个弱典型集一定被某个强典型集包含。
6.2 强典型集序列的选取,是尽量使序列的 N ( x , x ) n \frac{N(x,\bm{x})}{n} nN(x,x)尽量接近 p ( x ) p(x) p(x),即某个 x x x的频率接近概率。而弱典型集序列的选取,是尽量使 − log p ( x ) -\log p(\bm{x}) −logp(x)接近 H ( X ) H(X) H(X)。参考参考文献的122页。
参考文献
[1] Raymond W. Yeung,Information Theory and Network Coding,2008。