典型集与Shannon信源编码理论

Puppy_L

已于 2022-03-19 20:20:03 修改

阅读量812

点赞数 3

文章标签：概率论

于 2021-12-19 17:19:36 首次发布

本文链接：https://blog.csdn.net/qq_36665989/article/details/122003896

版权

1. 弱大数定律

1.1 随机变量依概率收敛
考虑一个与 $n$ 有关的随机变量，通常是对 $n$ 个随机变量求和得到的新随机变（见后面的弱大数定律）量，记这个随机变量为 $X$ 。如果我们说这个随机变量“依概率收敛”于一个常量 $u$ ，则我们记为
${\forall}\epsilon>0, ~\lim\limits_{n\rightarrow \infty} p(|X-u|<\epsilon)=1.$

此外还有3个等价的表达：
${\forall}\epsilon>0, ~\lim\limits_{n\rightarrow \infty} p(|X-u|\leq \epsilon)=1.$
${\forall}\epsilon>0, ~\lim\limits_{n\rightarrow \infty} p(|X-u|< \epsilon)>1-\epsilon.$
${\forall}\epsilon>0, ~\lim\limits_{n\rightarrow \infty} p(|X-u|\leq \epsilon)>1-\epsilon.$
$\blacksquare$
1.2 弱大数定律
考虑 $n$ 个独立同分布（i.i.d.）的随机变量 $X_1,X_2,\cdots,X_n$ ，他们的平均值均为 $u$ ，即 $E(X_i)=u$ 。则考虑一个新的随机变量
$X=\frac{X_1+X_2+\cdots+X_n}{n}.$ 则弱大数定律告诉我们， $X$ “依概率收敛”到 $u$ 。可以按照1.1写出四种表达式。
$\blacksquare$
1.3 形式复杂的随机变量与弱大数定律
一些随机变量可能是最简单的随机变量通过某种变化得来的，比如一个随机变量 $X$ ，通过某种函数 $f$ ，得到一个新的随机变量 $f (X)$ 。这个函数甚至可以是这个随机变量自己的概率函数， $p (x)$ 。比如某个随机变量的概率函数为
$p(x)=\left\{ \begin{array}{l} 1/3,~x<0\\ 2/3,~x\geq0 \end{array} \right.$ 那么有
$p(X)=\left\{ \begin{array}{l} 1/3,~X<0\\ 2/3,~X\geq0 \end{array} \right.$ 这就是一个随机变量。因为最终的取值和概率有关（因为 $X$ 的取值和概率有关所以最后的函数取值也和概率有关）。

我们仍然考虑 $n$ 个i.i.d.的随机变量 $X_1,X_2,\cdots,X_n$ ,并且记他们的概率函数为 $p (x)$ ，平均值为 $E(X)=\sum_x p(x)x=u$ 。现在考虑一组新的随机变量 $-\log p(X_1), -\log p(X_2), \cdots, -\log p(X_n)$ ，显然他们的平均值为
$E(-\log p(X_i))=\sum_x -p(x)\log p(x)=H(X).$

我们定义新的随机变量
$X^{'}=\frac{-\log p(X_1) -\log p(X_2)- \cdots -\log p(X_n)}{n},$ 然后应用1.2可以得到
${\forall} \epsilon>0,~\lim \limits_{n\rightarrow \infty} p(|X^{'}-H(X)|<\epsilon)=1.$
$\blacksquare$

2. 弱典型集

2.1 弱AEP-I
由1.3得到
${\forall} \epsilon>0,~\lim\limits_{n\rightarrow \infty}p(|X^{'}-H(X)\leq \epsilon|)>1-\epsilon.$ $\blacksquare$
2.2 弱典型集定义
2.1中给出了一个由 $\epsilon$ 控制的不等式，并且依概率收敛意味着2.1只在 $n$ 足够大的时候成立。现实中 $n$ 可能并不是足够大，所以根据显示中有限的 $n$ 的大小，定义了弱典型集。

弱典型集仍然基于 $n$ 个i.i.d.随机变量 $X_1,X_2,\cdots,X_n$ ，记这些随机变量和随机变量 $X$ 的概率函数相同，于是有 $p(x_i)=p(x)$ 。有了这些随机变量，我们定义一个序列为
$\bm{x}=(x_1,x_2,\cdots,x_n).$ 注意这里是具体的取值序列，不再是随机变量。显然，目前对这个序列没有任何限制，它可以取到满足定义的所有值，接下来我们要做的就是给他加上限制，使得这个序列只可以取到某些值。

考虑一个比较小的正数 $\epsilon$ ，我们加上限制
$|-\frac{1}{n}\log p(\bm{x})-H(X)|\leq \epsilon.$ 满足这个限制的 $\bm{x}=(x_1,x_2,\cdots,x_n)$ 的所有取值构成了一个集合，这个集合就是弱典型集，他与 $n$ , $X$ , $\epsilon$ 有关，记为 $W^{n}_{[X]\epsilon}$ .
$\blacksquare$

为什么要定义弱典型集，是为了将弱AEP-I更好地扩展成弱AEP-II。

2.3 弱AEP-II
(1) 根据弱典型集的定义，我们有
$2^{-n(H(X)+\epsilon)}\leq p(\bm{x}) \leq 2^{-n(H(X)-\epsilon)}$ 弱典型集本来就是对概率函数的取值进行约束得到的一个集合，因此弱典型集中的序列的概率有上界和下界。
(2)
$\lim\limits_{n\rightarrow \infty}p(X^{'}\in W^{n}_{[X]\epsilon})>1-\epsilon.$ 2.1中定义的随机变量取得弱典型集中序列的概率大于 $1-\epsilon$ 。
(3)关注弱典型集的大小，当 $n\rightarrow \infty$ 时
$(1-\epsilon)2^{n(H(X)-\epsilon)}\leq|W^{n}_{[X]\epsilon}|\leq 2^{n(H(X)+\epsilon)}$ 这里的上下界由(1)中 $p(\bm{x})$ 的上下界推导得来，并且反向对应（这里的上界对应(1)的下界）。
证明：
(1)不用证明，打开弱典型集定义的绝对值显然得到。
(2)通过概念说明。由若AEP-I我们知道，对于随机变量 $X^{'}$ ，有
${\forall} \epsilon>0,~\lim\limits_{n\rightarrow \infty}p(|X^{'}-H(X)\leq \epsilon|)>1-\epsilon.$ 在这里，我们实际上确定了 $\epsilon$ ，然后确定相应的 $W^{n}_{[X]\epsilon}$ ，因此上式我们其实是对于一个确定的 $\epsilon$ ，有
$\lim\limits_{n\rightarrow \infty}p(|X^{'}-H(X)\leq \epsilon|)>1-\epsilon.$ 这个式子的实际意义是：随机变量 $X^{'}$ 可以取到一些与 $H (X)$ 的绝对值相差小于等于 $\epsilon$ 的序列值，取到这些序列值的的概率的和大于 $1-\epsilon$ 。通过弱典型集的定义我们知道，这里的概率就是 $X^{'}$ 取到弱典型集 $W^{n}_{[X]\epsilon}$ 中序列值的概率。因此有
$\lim\limits_{n\rightarrow \infty}p(X^{'}\in W^{n}_{[X]\epsilon})>1-\epsilon.$ (2)实际上是弱AEP-I结合弱典型集概念的一个重表示。

下面证明(3)。弱典型集的大小与其中每个序列的概率密切相关，通过(1)中的概率下界我们知道每个序列的概率满足
$2^{-n(H(X)+\epsilon)}\leq p(\bm{x}).$ 所有弱典型集中序列的概率和小于等于1（如果等于1说明弱典型集几乎包括了所有序列）。因此有
$2^{-n(H(X)+\epsilon)}|W^{n}_{[X]\epsilon}|\leq p(W^{n}_{[X]\epsilon})\leq 1,$ 得到
$|W^{n}_{[X]\epsilon}|\leq 2^{n(H(X)+\epsilon)}.$ 另一边通过相似的方式，结合(2)可以证明得到。可见，弱典型集的大小上下界和(1)中弱典型集每个向量的概率上下界是反向对应的。
$\blacksquare$

弱典型集意义何在？弱AEP-II如何给出有意义的结论？

2.4 弱典型集的大小占比以及概率占比。
通过弱AEP-II的(2)我们可以看出，弱典型集的序列发生的概率基本上占了所有序列发生的概率的和。这是建立在我们取的较小的 $\epsilon$ 的前提下，保证了概率大于 $1-\epsilon$ ，如果 $\epsilon$ 取值过大，实际上既没办法保证弱典型集中序列概率占比大。比如 $\epsilon$ 取0.6，那只能保证弱典型集中序列概率和大于0.4。

我们确定了发生概率大的序列有什么用呢？在信源编码的时候，我们如果对发生概率比较大的序列用更高级的更精巧的编码方法，保证错误率很小，甚至没有错误，那么对于整体传输过程，整体错误率就很小，甚至没有（无限接近于0）。但是，如果这些占据很大概率的序列的集合很大，甚至大到几乎占据了整个可能的序列的空间，那其实上述的讨论是没有意义的，相当于我们对所有可能序列都需要高级且精巧的编码。而我们想要的理想情况是：某些序列的发生概率十分高，这些序列数量很少，我们只需要照顾好这些序列，其他发生概率小的序列甚至不用编码，我们都能得到很好误码率。

所以弱典型集的大小，或者说相对于整个可能的序列的大小的占比有多少呢？根据弱AEP-II的(2)的(3)我们知道
$(1-\epsilon)2^{n(H(X)-\epsilon)}\leq|W^{n}_{[X]\epsilon}|\leq 2^{n(H(X)+\epsilon)}$ 而整个可能序列的集合大小为 $|\chi|^n$ （ $\chi$ 是序列中每个元素的取值取值空间，即 $x_i\in \chi$ ）。上面的不等式同时除以 $|\chi|^n$ 得到(注意 $|\chi|^n=2^{n\log |\chi|}$ )
$(1-\epsilon)2^{n(H(X)-\epsilon-\log|\chi|)}\leq \frac{|W^{n}_{[X]\epsilon}|}{|\chi|^n} \leq 2^{n(H(X)+\epsilon-\log|\chi|)}.$ 由熵的上界可知 $H(X)-\log|\chi|<0$ ，因此在 $\epsilon$ 足够小的时候，如果能保证 $H(X)+\epsilon-\log|\chi|<0$ ，那么上面不等式的最大值必然在 $n\rightarrow \infty$ 时逼近0，这意味着弱典型集在整个可能的序列空间的占比很小。
$\blacksquare$

3. 香农信源编码定理

前面讨论弱典型集，就是为了引出香农信源编码理论。实际上，香农信源编码理论的正向部分，就是选取了弱典型集中的码字进行编码。反向部分也是利用弱AEP进行证明。

对于信源编码，我们考虑 $n$ 个随机变量的编码，即对随机序列 $(X_1,X_2,\cdots,X_n)$ 进行编码。其中， $x_i\in \chi$ ，所以有
$(x_1,x_2,\cdots,x_n)\in \chi^n.$ 如前面讨论的，为了保证误码率为0，我们可以对整个 $\chi^n$ 中的序列全部进行编码，可是这样效率最低。最理想的信源编码只对 $\chi^n$ 中部分序列进行编码，剩下的序列可以忽略，达到对整体误码率影响很小的结果。我们记我们只对 $\chi$ 的一个子集 $\bm{A}$ 进行编码，于是 $\bm{A}\subset \chi^n$ 。记这个子集的序列被编码成的码字集合的大小为 $M=|\bm{A}|$ . 因为表示这 $M$ 个码字需要约 $\log M$ 个比特，所以定义码率（coding rate）为
$\frac{\log M}{n}.$ 显然，码率越小（大量的序列不用考虑，直接丢掉），我们的编码越高效。
香农信源编码理论讨论的是如何选取 $\bm{A}$ ，能够完成误码率逼近0且码率尽量小的高效编码。

3.1 香农信源编码正向部分（direct part）
如果允许误码率为任意小量（any small quantity），存在一个分组码（block code）在 $n$ 足够大（即接近于无穷大）的时候任意接近于熵 $H (X)$ 。
证明：
我们证明，其实令 $\bm{A}=W^{n}_{[X]\epsilon}$ 就可以得到一个满足条件的编码方案。
根据弱AEP-II中的(3)，我们知道有
$(1-\epsilon)2^{n(H(X)-\epsilon)}\leq M=|W^{n}_{[X]\epsilon}|\leq 2^{n(H(X)+\epsilon)}.$ 于是码率满足
$\frac{\log (1-\epsilon)}{n}+(H(X)-\epsilon)\leq \frac{\log M}{n}\leq H(X)+\epsilon.$ 显然，当 $\epsilon$ 足够小的时候，码率接近 $H (X)$ 。这保证了我们的编码足够高效，即考虑的序列大小 $\bm{A}$ 足够小。下面我们还需要证明在这种编码下，误码率也接近于0.

根据弱AEP-II中的(2)，我们知道在 $n\rightarrow \infty$ 时
$p(X\in W^{n}_{[X]\epsilon})>1-\epsilon,$ 这意味着误码率
$P_e< \epsilon.$ 当 $\epsilon$ 足够小的时候，误码率为0.
$\blacksquare$

香浓编码定理的正向部分告诉了我们，只考虑弱典型集中的序列，我们可以在 $n$ 足够大并且 $\epsilon$ 足够小的时候得到一个码率接近 $H (X)$ 并且误码率接近0的信源编码方案。这里码率与 $H (X)$ 、误码率与0的接近程度，收到 $n$ 的大小和 $\epsilon$ 大小的影响。

有了香农信源编码定理的正向部分，我们自然会有一个疑问，是否我们还可以进一步压缩码率，找到一个码率小于 $H (X)$ 并且误码率几乎为0的信源编码方案呢。香农信源编码的反向部分就揭示了这个问题的答案。

3.2 香农信源编码反向部分（converse part）
如果一个分组码的信源编码的码率为
$H(X)-\zeta, \zeta>0$ 其中 $\zeta$ 是一个常数（不随 $n$ 变化）。那么这个分组码的误码率在 $n$ 足够大的时候接近于1.
证明：
仍然是考虑弱典型集。根据弱AEP-II中的(1)，一个弱典型集中的序列的概率满足
$2^{-n(H(X)+\epsilon)}\leq p(\bm{x})\leq 2^{-n(H(X)-\epsilon)}.$ 因此当我们有一个 $\bm{A}$ 的时候，我们假设它的序列全部是弱典型集中的序列，则 $\bm{A}$ 中序列的总的概率上界为
$M2^{-n(H(X)-\epsilon)}.$ 码率为 $H(X)-\zeta$ ，那么 $M=2^{n(H(X)-\zeta)}$ 。于是我们假设 $\bm{A}$ 中的全部序列均为弱典型集最终的序列的话， $\bm{A}$ 中序列的总的概率上界为
$2^{n(H(X)-\zeta)}2^{-n(H(X)-\epsilon)}=2^{-n(\zeta-\epsilon)}.$

观察上式，我们发现，如果将 $\zeta$ 取0，即我们编码方案的码率为 $H (X)$ ，则 $\bm{A}$ 中序列的总的概率上界在 $\epsilon\rightarrow 0$ 的条件下逼近1。这意味着我们编码的序列几乎占据了所有序列，误码率逼近0。同样的，我们考虑将 $\zeta$ 取 $\epsilon$ 或者 $-\epsilon$ 也能得到逼近0的误码率，在这种情况正是香农信源编码的正向部分。

在这里的假设，我们有 $\zeta$ 是个正常数，且不随 $n$ 变化。因此总是存在一个 $\epsilon$ 使得 $\zeta-\epsilon>0$ 。另一方面，我们其实还需要考虑假设 $\bm{A}$ 中的序列不全是弱典型集的序列。实际上，我们根据弱AEP-II可以知道，弱典型集的序列的概率几乎占据了整个概率，即接近于1，而非弱典型集序列的概率和满足
$p(X\notin W^{n}_{[X]\epsilon})<\epsilon.$ 这也是一个很小量。基于上面的分析， $\bm{A}$ 能够包含的序列的概率的总和一定是小于
$2^{-n(\zeta-\epsilon)}+p(X\notin W^{n}_{[X]\epsilon})$ 的。而这个式子在 $n\rightarrow \infty$ 时逼近0，这意味着误码率逼近1。
$\blacksquare$

4. Efficient Source Coding

考虑长度为 $n$ 的二进制序列 $\bm{Y}=(Y_1,Y_2,\cdots,Y_n)$ ，他的熵满足不等式
$H(\bm{Y})\leq n,$ 当且仅当 $Y_i$ 相互独立（mutually independent）且在 ${0,1\}$ 上均与分布时取等号。
证明：
根据链式法则有
$H(\bm{Y})=\sum^{n}_{i=1} H(Y_i|Y_1,\cdots,Y_{i-1}).$ 根据条件熵小于本原熵的定理，有
$H(\bm{Y})\leq \sum^{n}_{i=1} H(Y_i).$ 取等号时有
$p(x_1,x_2)=p(x_1)p(x_2)\\ p(x_1,x_2,x_3)=p(x_1,x_2)p(x_3)\\ \vdots\\ p(x_1,x_2,\cdots,x_n)=p(x_1,\cdots,x_{n-1})p(x_n)\\$ 进一步得到
$p(x_1,x_2,\cdots,x_n)=\prod^{n}_{i=1}p(x_i),$ 即相互独立。

当 $Y_i$ 取 ${0,1\}$ 上的均匀分布时有
$H(Y_i)=1.$ 于是
$H(\bm{Y})=n.$

5. 强典型集

5.1 强典型集定义
考虑长度为 $n$ 的随机变量序列 $(X_1,X_2,\cdots,X_n)$ ，其中 $X_i$ 独立同分布(i.i.d.)，概率函数为 $p (x)$ 。一个序列记为 $\bm{x}=(x_1,x_2,\cdots,x_n)$ ，其中 $x_i\in \chi$ 。记 $N(x,\bm{x})$ 为 $\bm{x}$ 中 $x$ 出现的次数。则强典型集 $T^{n}_{[X]\delta}$ 是满足以下条件的序列的集合
$\sum_{x\in \chi} |\frac{N(x,\bm{x})}{n}-p(x)|\leq \delta,$ 其中 $\delta$ 是一个足够小的正数。
$\blacksquare$

弱典型集通过比较 $p (x)$ 与 $H (X)$ 的关系定义，强典型集通过比较 $N(x,\bm{x})$ 与 $p (x)$ 之间的关系定义。

5.2 强AEP
存在一个 $\eta>0$ ，在 $\delta\rightarrow \infty$ 时也 $\eta\rightarrow \infty$ ，并使得下列不等式成立：
(1)
$2^{-n(H(X)+\eta)}\leq p(\bm{x})\leq 2^{-n(H(X)-\eta)}$
(2)
$p(X\in T^{n}_{[X]\delta})>1-\delta$
(3)
$(1-\delta)2^{n(H(X)-\eta)}\leq |T^{n}_{[X]\delta}|\leq 2^{n(H(X)+\eta)}$
证明：
(1)的证明要通过强典型集基于 $N(x,\bm{x})$ 的定义转换到 $p(\bm{x})$ 上，于是
$p(\bm{x})=\prod^{n}_{i=1}p(x_i)=\prod_{x\in \chi} ~p(x)^{N(x,\bm{x})}$
$\begin{aligned} \log p(\bm{x})&=\sum_{x\in \chi}N(x,\bm{x})\log p(x)\\ &=\sum_{x\in \chi}(N(x,\bm{x})-np(x)+np(x))\log p(x)\\ &=-nH(X)+n\sum_{x\in \chi}(\frac{N(x,\bm{x})}{n}-p(x))\log p(x) \end{aligned}$ 根据强典型集的定义，有
$\begin{aligned} &|\sum_{x\in \chi}(\frac{N(x,\bm{x})}{n}-p(x))(-\log p(x))|\\ \leq & \sum_{x\in \chi}|\frac{N(x,\bm{x})}{n}-p(x)|(-\log p(x))\\ \leq & \sum_{x\in \chi}|\frac{N(x,\bm{x})}{n}-p(x)|(-\log p_{min}(x))\\ \leq & \delta (-\log p_{min}(x)) . \end{aligned}$ 记 $\eta=- \delta\log p_{min}(x)$ ，显然当 $\delta\rightarrow 0$ 时 $\eta\rightarrow 0$ . 于是
$-\eta\leq \sum_{x\in \chi}(\frac{N(x,\bm{x})}{n}-p(x))(-\log p(x))\leq \eta$ 因此
$-n(H(X)+\eta)\leq \log p(\bm{x})\leq -n(H(X)-\eta)\\ 2^{-n(H(X)+\eta)}\leq p(\bm{x})\leq 2^{-n(H(X)-\eta)}$

(2)的证明同弱AEP的(2)一样要用到弱大数定律。考虑随机变量 $B (x)$ 满足 $p (B (x) = 1) = p (x)$ 和 $p(B(x)\neq1)=1-p(x)$ 。显然他的期望为 $E (B (x)) = p (x)$ 。考虑 $n$ 个独立同分布的随机变量 $B_1(x),B_2(x),\cdots,B_n(x)$ ，他们均满足 $B (x)$ 的概率函数。利用弱大数定理，当 $n\rightarrow \infty$ 时
$p(|\frac{\sum^{n}_{i=1}B_i(x)}{n}-p(x)|\leq \epsilon)>1-\epsilon$ 反之，
$p(|\frac{\sum^{n}_{i=1}B_i(x)}{n}-p(x)|> \epsilon)<\epsilon.$ 因为 $\epsilon$ 是任意小的整数，所以我们也可以令 $\epsilon=\frac{\delta}{|\chi|}$ ,有
$\tag{1} p(|\frac{\sum^{n}_{i=1}B_i(x)}{n}-p(x)|> \frac{\delta}{|\chi|})<\frac{\delta}{|\chi|}\\ p(|\frac{N(x,\bm{x})}{n}-p(x)|> \frac{\delta}{|\chi|})<\frac{\delta}{|\chi|}.$ 考虑强典型集定义
$\begin{aligned} &p(X\in T^{n}_{[X]\delta})\\ =&p(\sum_{x\in \chi} |\frac{N(x,\bm{x})}{n}-p(x)|\leq \delta)\\ =&1-p(\sum_{x\in \chi} |\frac{N(x,\bm{x})}{n}-p(x)|> \delta)\\ \geq&1-p(|\frac{N(x,\bm{x})}{n}-p(x)|> \frac{\delta}{|\chi|}),\text{反证}\\ \geq &1-\frac{\delta}{|\chi|},\text{利用(1)}\\ \geq &1-\delta \end{aligned}$

$\blacksquare$

6. 强典型集vs弱典型集

6.1
给定一个序列，如果他属于强典型集 $T^{n}_{[X]\delta}$ ，那么必然存在一个 $\eta$ ，满足当 $\delta\rightarrow 0$ 时 $\eta\rightarrow 0$ 。我们根据这个 $\eta$ 可以找到一个弱典型集 $W^{n}_{[X]\eta}$ 使得给定的序列在这个弱典型集中。
证明：
根据强AEP中的(1)有
$2^{-n(H(X)+\eta)}\leq p(\bm{x})\leq 2^{-n(H(X)-\eta)}$ 显然有
$|-\frac{\log p(\bm{x})}{n}-H(X)|\leq \eta$ 满足弱典型集的定义。
$\blacksquare$

6.1告诉我们，针对一个给定的序列，如果他存在某个强典型集中，也一定存在某个弱典型集中。但是，这并不代表一个弱典型集一定被某个强典型集包含。

6.2 强典型集序列的选取，是尽量使序列的 $\frac{N(x,\bm{x})}{n}$ 尽量接近 $p (x)$ ，即某个 $x$ 的频率接近概率。而弱典型集序列的选取，是尽量使 $-\log p(\bm{x})$ 接近 $H (X)$ 。参考参考文献的122页。

参考文献

[1] Raymond W. Yeung，Information Theory and Network Coding，2008。

Puppy_L

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
典型集与Shannon信源编码理论

1. 弱大数定律1.1 随机变量依概率收敛考虑一个与nnn有关的随机变量，通常是对nnn个随机变量求和得到的新随机变（见后面的弱大数定律）量，记这个随机变量为XXX。如果我们说这个随机变量“依概率收敛”于一个常量uuu，则我们记为∀ϵ>0, lim⁡n→∞p(∣X−u∣<ϵ)=1.{\forall}\epsilon>0, ~\lim\limits_{n\rightarrow \infty} p(|X-u|<\epsilon)=1.∀ϵ>0, n→∞
复制链接

扫一扫