信源编码1：零误差数据压缩

Puppy_L

已于 2022-03-19 20:20:43 修改

阅读量177

点赞数

文章标签：概率论

于 2021-10-16 20:07:09 首次发布

本文链接：https://blog.csdn.net/qq_36665989/article/details/120800402

版权

本文详细介绍了信源编码的基本概念，包括唯一可解信源编码的Kraft不等式，以及平均长度下界。重点探讨了Huffman编码的构造、最优性质及其平均长度上界。此外，还讨论了Shannon-Fano-Elias码的平均长度与冗余度，并定义了内部节点的冗余度。通过对内部节点冗余度的分析，展示了prefix码的总冗余度与内部节点冗余度的关系。

摘要由CSDN通过智能技术生成

1. 基本性质

1.1 考虑一个 $D$ -ary的信源编码，它是由一个随机变量 $X$ 通过某种映射得到的集合 $D^{*}$ ，集合 $D^{*}$ 中包含的元素是码字，每个码字的符号是 $D$ 进制的。

例如，考虑一个 $2$ -ary的信源编码，其对应的随机变量 $X$ 的字母表为 $\chi=\{A,B,C,D\}$ （先不关心每个字母对应的概率 $p_i(x)$ ）。随机变量到码字的映射关系如下：
$\begin{aligned} &A\rightarrow 0\\ &B\rightarrow 1\\ &C\rightarrow 01\\ &D\rightarrow 10. \end{aligned}$ 显然，这个信源编码的码字码长为 $l_1,l_2,l_3,l_4=1,1,2,2$ 。码字的每个符号是2进制的比特。
$\blacksquare$

1.2. 唯一可解信源编码。
考虑**1.**中的编码，会发现当接收到某些码字组合时，无法译出原随机变量 $X$ 的值。比如接收端接收到码字组合010时，可能是 $A B A$ ，也可能是 $A D$ 。像这种存在无法唯一译码 $X$ 的情况的信源编码称为非唯一译码信源编码。反之，唯一译码（uniquely decodable）信源编码不存在上述情况。

例如，考虑一个 $2$ -ary的信源编码，其对应的随机变量 $X$ 的字母表为 $\chi=\{A,B,C,D\}$ （先不关心每个字母对应的概率 $p_i(x)$ ）。随机变量到码字的映射关系如下：
$\begin{aligned} &A\rightarrow 00\\ &B\rightarrow 01\\ &C\rightarrow 10\\ &D\rightarrow 11. \end{aligned}$ 显然，这个信源编码的码字码长为 $l_1,l_2,l_3,l_4=2,2,2,2$ 。码字的每个符号是2进制的比特。它是一个唯一可译码的信源编码。
$\blacksquare$

1.3. Kraft不等式：
对于一个 $D$ -ary的唯一可解信源，其码字长度为 $l_i$ ，则Kraft不等式为
$\sum_{i}D^{-l_i}\leq 1.$
证明：
考虑一个正整数 $N$ ，于是
$(\sum_{i}D^{-l_i})^N=(D^{-l_1}+D^{-l_1}+\cdots)^N$ 利用乘法分配律将括号展开，可以得到
$(\sum_{i}D^{-l_i})^N=\sum^{Nl_{max}}_{i=1}A_iD^{-i}.$ 其中 $l_{max}=max\{l_i\}$ ， $A_i$ 是展开括号后 $D^{-i}$ 的系数。

注意这里虽然求和项从 $i = 1$ 考虑到 $Nl_{max}$ ，但实际上有的值不一定能取到。例如对所有的 $i$ 都有 $l_i=2$ 的话，显然无法取到 $D^{-1}$ 。

再来看看展开括号这一步。对于某个特定的 $D^{-i_0}$ ，需要从 $N$ 个 $\sum_{i}D^{-l_i}$ 中分别挑选一个因式，使得挑选出来的 $N$ 个因式的乘积等于 $D^{-i_0}$ 。显然挑选方式很多，而 $A_{i_0}$ 则等于所有挑选方法的总和。

从另一个角度看，上面展开括号的过程，类似于组成一个包含 $N$ 个码字的且长度为 $i_0$ 码字序列。对于这个长度为 $N$ 个码字的码字序列，我们每次挑选一个码字，一共挑选 $N$ 次。这个长度为 $N$ 个码字的码字序列的组成方法有很多种，其总数等于 $A_{i_0}$ 。此外，这 $A_{i_0}$ 个码字序列都是不同的，这是因为这个信源是唯一可解的（假如有相同的就不是唯一可解了）。

另一个方面，如果我们一个符号一个符号地构造一个长度为 $i_0$ 的码字，可以构造出 $D^{i_0}$ 个不同的码字。所以，我们有 $A_{i_0}\leq D^{i_0}$ 。所以前面的式子满足
$(\sum_{i}D^{-l_i})^N=\sum^{Nl_{max}}_{i=1}A_iD^{-i}\leq Nl_{max}.$
$\sum_{i}D^{l_i}\leq (Nl_{max})^{1/N}$

我们取一个无穷大的 $N$ ，于是
$\lim \limits_{N\rightarrow\infty} \leq (Nl_{max})^{1/N}=1.$ 进一步有
$\sum_{i}D^{l_i}\leq 1.$
$\blacksquare$

1.4. Kraft不等式取等号的一个例子。
考虑一个唯一可解信源编码，其所有码字等长，均为 $l$ 。并且随机变量 $X$ 也是均匀分布的，其字母表大小为 $|\chi|=D^l$ 。显然有 $\sum_{i}D^{l_i}=D^{l}D^{-l}=1$ 。

例如考虑 $\chi=\{A,B,C,D\}$ ， $p (X = A) = p (X = B) = p X = c) = p (X = D) = 1 / 4$ 。随机变量到码字的映射为
$\begin{aligned} &A\rightarrow 00\\ &B\rightarrow 01\\ &C\rightarrow 10\\ &D\rightarrow 11. \end{aligned}$ 显然， $D = 2$ 。Kraft不等式变为下列等式
$2^{-2}+2^{-2}+2^{-2}+2^{-2}=1.$
$\blacksquare$

1.5. 信源编码平均长度下界。

一个唯一可解的信源编码基于随机变量 $X$ ，对于 $X=x_i$ 映射的码字长度记为 $l_i$ ，该信源编码的平均码字长度为 $L=\sum_{i}p_i(x)l_i$ 。该信源编码的平均码字长度满足
$L\geq H_D(X).$ 当且仅当对所有 $i$ 均有 $p_i=D^{-l_i}$ 时取等号。
证明：
$\begin{aligned} &L-H_D(X)\\ &=\sum_ip_il_i+\sum_ip_i\log_D p_i\\ &=\sum_ip_i\log_D D^{l_i}+\sum_ip_i\log_D p_i\\ &=\sum_ip_i\log_D p_iD^{l_i}\\ &= (\ln D)^{-1} \sum_ip_i \ln \frac{p_i}{D^{-l_i}}\\ &\geq (\ln D)^{-1} \sum_ip_i (1-\frac{D^{-l_i}}{p_i})\\ &=(\ln D)^{-1} \sum_i(p_i -D^{-l_i})\\ &=(\ln D)^{-1} (1-\sum_{i}D^{-l_i})\\ &\geq 0 \end{aligned}$
上式第一个不等式关系用到了fundamental不等式，第二个不等式关系用到了Kraft不等式。

当第一个不等式取等号时，有 $p_i=D^{-l_i}$ 。在这个情况下，Kraft不等式也取等号，所以整个不等式取等号。
$\blacksquare$

1.6. 因为唯一可解信源编码的平均长度有下界，所以定义redundancy为
$L-H_D(X).$
显然当 $p_i=D^{-l_i}$ 时redundancy为0。
$\blacksquare$

1.7. Prefix码。
如果一个信源编码的任意一个码字都不是另外某个码字的前缀，则称该码字为prefix-free码，简称prefix码。

显然prefix码是唯一可解码。
$\blacksquare$

1.8.
存在一个信源编码是prefix码，当且仅当其满足Kraft不等式。

（显然，存在一个信源编码是唯一可解码，当且仅当其满足Kraft不等式）
证明：
prefix码就是唯一可解码，满足Kraft不等式。

我们需要证的是如果一个信源编码满足Kraft不等式，则存在一个将之构造成prefix码的构造方法。

记这个信源编码是 $D$ 进制的，并且有 $l_1\leq l_2\leq \cdots \leq l_m$ 。考虑一个 $D$ -ary的满树，其深度为 $l_m$ 。显然，这个树的order为 $l_k$ 的叶子结点有 $D^{l_k}$ 个，这意味着长度为 $l_k$ 的码字最多对应 $D^{l_k}$ 个。

首先考虑第一个码字，长度为 $l_1$ 。显然可以将这个码字对应到order为 $l_1$ 的第一个叶子结点。下面利用归纳法。假设我们对于 $l_1,l_2,\cdots,l_i$ 均可以按照从左往右的顺序将他们对应的码字对应到相应order的叶子结点，并且这些对应的叶子节点里面，不存在父子节点的关系，即这些码字是prefix码。下面证明仍然可以将长度为 $l_{i+1}$ 的码字对应到一个还没有被用过的order为 $l_{i+1}$ 的叶子结点，并且该节点不是已用过节点的子节点。

在这个深度为 $l_m$ 的 $D$ -ary满树中，order为 $l_{i+1}$ 的节点的总数为 $D^{l_{i+1}}$ 。在前面 $l_1,\cdots,l_i$ 的使用过程中，使用了一些节点。对于 $1\leq k\leq i$ ，考虑其中某个order为 $k$ 的节点。这个节点会生成 $D^{l_{i+1}-l_k}$ 个order为 $l_{i+1}$ 的子节点，这些子节点是不能再用于当前长度为 $l_{i+1}$ 的码字的（否则就违反了prefix码的定义）。因此，在前面的生成中，order为 $l_{i+1}$ 的叶子节点被使用了
$D^{l_{i+1}-l_1}+D^{l_{i+1}-l_2}+\cdots+D^{l_{i+1}-l_i}$ 个。那么剩下的order为 $l_{i+1}$ 的叶子节点数目为
$\begin{aligned} &D^{l_{i+1}}-(D^{l_{i+1}-l_1}+D^{l_{i+1}-l_2}+\cdots+D^{l_{i+1}-l_i})\\ =&D^{l_{i+1}}(1-\sum^{i}_{k=1}D^{-l_k})\\ \geq & D^{l_{i+1}}\sum^{m}_{k=i+1}D^{-l_k}\\ \geq & D^{l_{i+1}}D^{-l_{i+1}}\\ =&1. \end{aligned}$ 以上证明过程用到了Kraft不等式。剩下的order为 $l_{i+1}$ 的叶子节点数目大于等于1，说明当前 $i$ 个码字以对应好了之后，总是能将第 $i + 1$ 个码字对应好，并且这前 $i + 1$ 个码字不违反prefix码的规则。以此类推，一直到 $l_m$ ，构造成一个prefix码。
$\blacksquare$

前面关于平均长度下界的讨论给出，当对于所有 $i$ 都有 $p_i=D^{-l_i}$ 时( $l_i=-\log_{D} p_i$ )，平均长度取下界 $H_D(X)$ 。关于这个entropy bound，我们可以定义一个D-adic分部。
1.9. 如果一个概率分布 ${p_i\}$ 满足 $p_i=D^{-t_i}$ ，其中 $t_i$ 是一个正整数我们称该概率分布满足 $D$ -adic。当 $D = 2$ ，称之为dyadic分布。
$\blacksquare$

以上 $D$ -adic分布的定义是为了引出关于平均长度达到entropy bound 的情况。
1.10. 存在一个达到entropy bound的prefix code（即 $L=H_D(X)$ ），当且仅当概率分布是 $D$ -adic的。
证明：
必要条件很好证明，如果存在一个达到entropy bound 的prefix code，显然有 $p_i=D^{-l_i}$ ，令 $t_i=l_I$ ，即可证明该概率分布是 $D$ -adic的。

现在证明充分条件。假设 $X$ 的概率分布是 $D$ -adic的，则有 $p_i=D^{-t_i}$ 。那么
$1=\sum_{i}p_i=\sum_{i}D^{-t_i}.$ 如果我们令 $l_i=t_i$ ，显然entropy bound取到了等号。此外，Kraft不等式也满足，因此总是能构造出一个prefix code。综上，存在一个prefix code，并且该code达到entropy bound。
$\blacksquare$

2. Huffman码

2.1. Huffman code的构造。
考虑 $D$ -ary的Huffman code，用 $D$ -ary树来构造Huffman code。每次选取概率最小的两个节点进行合并，合并后的节点概率为这两个子节点的概率和。重复该合并过程直到仅剩下 $D$ 个节点以上过程得到一颗 $D$ -ary的树，从根节点出发，每个叶子结点的深度就是对应的codeword的长度。

对于 $D = 2$ 的随机变量，总是能直接构造出一个Huffman code。而对于 $D > 2$ 的情况，我们每次合并 $D$ 个节点，再生成1个合并后的节点，因此每次操作相当于在总的节点数上减去 $D - 1$ 。假设一共有 $k + 1$ 次合并操作，于是经过前 $k$ 次合并，总的节点数减少了 $k (D - 1)$ 。此时，我们需要剩下的节点数为 $D$ ，因此，原始的总节点数需要为 $D + k (D - 1)$ 。 $D > 2$ 时的Huffman编码与 $D = 2$ 的编码本质区别在这儿，我们需要在原始总结点数不满足 $D + k (D - 1)$ 时，补一些概率为0的节点，来满足这个要求。
$\blacksquare$

在提出了Huffman码的构造方式之后，我们需要证明他是一种最优（optimal）编码。在给出证明之前，我们先给出两个关于最优码的引理。

2.2. 在一个最优码中，概率小的码字的长度大于等于概率大的码字长度。即，如果 $p_i<p_j$ ，则 $l_i\geq l_j$ 。
证明：
反正，我们假设对于一个最优码，如果 $p_i<p_j$ ，有 $l_i<l_j$ 。显然，我们可以交换这两个码字的码长，交换后的平均码长与交换前的平均码长的差为
$p_il_j+p_jl_i)-(p_il_i+p_jl_j)=(p_i-p_j)(l_j-l_i)<0.$ 这说明交换长度后平均码长变小了，这说明交换前并不是最优码。因此我们的假设矛盾，必然有 $l_i\geq l_j$ 。
$\blacksquare$

2.3. 存在一个最优码，他的概率最小的两个码字只有最后一个符号不同，前面的符号完全相同。用树的概念来讲就是，一定存在一个最优码，他的概率最小的两个码字对应的叶子结点是相邻的姊妹节点。
证明：
我们从构造性的角度来证明。假设概率最小的一个码字对应的叶子结点没有姊妹节点，那么该节点完全可以被其父节点替代，因为被父节点替代后，仍然是prefix code，且平均长度减小了。平均长度可以进一步减小，说明此码不是最优码，矛盾。

假设概率最小的一个码字对应的叶子结点有姊妹节点。假如这个姊妹节点不是概率第二小的码字对应的姊妹节点，而是概率为 $p_i$ 的码字对应的叶子结点。我们记最小和第二小的概率为 $p_{min1}$ 和 $p_{min2}$ 。根据12.，显然有 $l_{min1}\geq l_{min2}$ 。又因为 $p_i>p_{min2}$ ，又有 $l_i\leq l_{min2}$ 。因为 $i$ 和 $m i n 1$ 是姊妹节点，于是 $l_i=l_{min1}$ ，那么我们有
$\begin{aligned} & l_{min1}\geq l_{min2}\\ & l_{min1}\leq l_{min2} \end{aligned}$ 于是 $l_{min1}=l_{min2}=l_i$ ，意味着我们交换 $i$ 和 $m i n 2$ 的位置并不影响平均长度，即交换他们的位置仍然是一个最优码。
$\blacksquare$

2.4. 证明Huffman code是一个最优码。
考虑两个姊妹叶子节点，其对应的概率分别为 $p_i$ 和 $p_j$ 。假设我们将这两个叶子结点合并，只考虑其父节点，那这个新的树构成了一个新的码，新码贺旧码的平均长度分别记为 $L^{'}$ 和 $L$ ，于是
$L-L^{'}=(p_i+p_j)l-(p_i+p_j)(l-1)=p_i+p_j.$ 这意味着如果旧码是最优码，新码也是最优码。很容易反证，如果新码不是最优码，那么找一个最优的新码，将概率为 $p_i+p_j$ 的这个父节点分裂成概率分别为 $p_i$ 和 $p_j$ 的两个叶子结点，则生成的旧码的平均码长要比我们的 $L$ 要小，与我们的旧码是最优码的假设矛盾。

实际上，有了以上的新旧码之间平均码长的关系，我们得到：如果旧码是一个最优码，当且仅当新码也是一个最优码。

有了这个规律，Huffman的证明就很简单，只要从根节点往下，一直遵循码的分裂，就可以证明到分裂后的码一定是最优码。
$\blacksquare$

2.5. Huffman code的上下界。
对于一个Huffman码，他的平均长度满足
$H_D(X)\leq L\leq H_D(X)+1.$
证明：
前面我们已经证明过Huffman码是最优码，这意味着无论我们构造一个什么码，他的平均长度都是大于等于Huffman码的平均长度的。于是，证明思路是，先证明我们可以构造一个prefix码，他的平均长度小于 $H_D(X)+1$ 。于是因为Huffman码是最优码，Huffman码的平均长度小于等于我们构造的这个码，因此也小于 $H_D(X)+1$ 。至于下界本来就是entropy bound，无需再证明。

下面这种构造的平均长度小于 $H_D(X)+1$ 的码也称为Shannon code。首先，我们之前的entropy bound告诉我们，当我们对所有 $i$ 都有 $l_i=-\log_D(p_i)$ 时， $L=H_D(X)$ 。于是考虑将 $l_i$ 设置为下列整数
$l_i=\lceil -\log_D(p_i) \rceil.$ 这样取整的方法导致了下列不等式
$-\log_D(p_i)\leq l_i< -\log_D(p_i)+1.$

左边的部分进行变换得到
$p_i\geq D^{-l_i}.$ 于是求和有
$\sum_{i}D^{-l_i}\leq \sum_{i}p_i=1.$ 显然，这个不等式说明我们的构造方法满足Kraft不等式，因此我们一定能按照这样的长度分配构造出一个prefix码。

另一方面，我们利用右边部分，得到
$\begin{aligned} L&=\sum_ip_il_i\\ &<\sum_i(-p_i\log_D(p_i)+1)\\ &=H_D(X)+1. \end{aligned}$ 至此，我们证明到Huffman码的上界是 $H_D(X)+1$ 。

实际上，Huffman的这个上界是紧的（tight），即这个上界在某些情况下是可以达到的（无限接近）。因此，下面我们给出一个例子，使得Huffman码的平均码长在这个例子中无限接近上界 $H_D(X)+1$ 。

考虑一个 $D$ -ary的编码，假设概率分布为
$P_k=\{1-\frac{D-1}{k},\underbrace{\frac{1}{k},\cdots,\frac{1}{k}}_{D-1}\}.$ 显然对这个概率分布使用Huffman编码，一步就足够，所有码字长度为1，平均码长也为1。其熵计算为
$\begin{aligned} H_D(X)&=-\sum_ip_i\log_D p_i\\ &=-(1-\frac{D-1}{k})\log_D (1-\frac{D-1}{k})-\frac{D-1}{k}\log_D(\frac{1}{k}) \end{aligned}$ 当 $k\rightarrow \infty$ 时，有 $H_D(X)\rightarrow 0$ ，于是当 $k\rightarrow \infty$ 时，有 $L\rightarrow H_D(X)+1$ 。
$\blacksquare$

2.6. 多个连续随机变量的Huffman编码。
前面的讨论可以看出，Huffman编码虽然是最优码，但还是不能保证编码后的平均码长一定取到下界entropy，事实上，如果我们对多个连续的随机变量一起使用H付付满编码，则能无限接近下界entropy。

考虑 $n$ 个独立同分布的随机变量
$\{X_1,X_2,\cdots,X_n\}.$ 记他们均满足 $X$ 的分布。
将这 $n$ 个变量进行Huffman编码，得到的码字的平均长度满足
$nH_D(X)\leq L\leq nH_D(X)+1.$ 这里entropy前面取 $n$ 倍是因为熵的定义使得这 $n$ 个随机变量的熵可以累加。

这里的长度针对 $n$ 个随机变量，假如取平均长度，那么每个随机变量的平均码长为 $L / n$ ，满足
$H_D(X)\leq L/n \leq H_D(X)+1/n.$ 当 $n\rightarrow \infty$ 时，上式右边趋近于 $H_D(X)$ .

$\blacksquare$

3. Shannon-Fano-Elias码

3.1. Shannon-Fano-Elias码的构造。
考虑概率分布 ${p_i\}$ ，考虑其累积分布函数（cumulative distribution function） $F_i$ ：
$F_i=\sum^{i}_{j=1}p_j.$ 我们定义一个新的类似于累积分布函数的函数 $\bar{F}_i$ ：
$\bar{F}_i=\sum^{i-1}_{j=1}p_j+\frac{1}{2}p_i.$ 注意以上的定义都基于概率分部 $p_i$ 的下标已经排好序的基础上。

对于每个概率 $p_i$ ，取码字长度为 $l_i=\lceil -\log_D(p_i)\rceil+1$ 。对 $\bar{F}_i$ 的前 $l_i$ 位取四舍五入，得到长度为 $l_i$ 的码字。
$\blacksquare$

3.2. 构造举例。
假设概率分布为
$[p_1,p_2,p_3,p_4]=[\frac{1}{4},\frac{1}{2},\frac{1}{8},\frac{1}{8}].$ 我们得到修改的累积概率分布函数为
$\begin{aligned} [\bar{F}_1,\bar{F}_2,\bar{F}_3,\bar{F}_4]&=[\frac{1}{8},\frac{1}{2},\frac{13}{16},\frac{15}{16}]\\ &=[0.125,0.5,0.8125,0.9375]. \end{aligned}$ 采用二进制表示为
$[\bar{F}_1,\bar{F}_2,\bar{F}_3,\bar{F}_4]=[0.001,0.1,0.1101,0.1111].$
我们对这4个概率选取码字长度为
$\begin{aligned} [l_1,l_2,l_3,l_4]&=[\lceil-\log_2 \frac{1}{4}\rceil +1,\lceil-\log_2 \frac{1}{2}\rceil +1,\lceil-\log_2 \frac{1}{8}\rceil +1,\lceil-\log_2 \frac{1}{8}\rceil +1]\\ &=[3,2,4,4]. \end{aligned}$ 于是我们对 $[\bar{F}_1,\bar{F}_2,\bar{F}_3,\bar{F}_4]$ 的二进制分别取前 $[3, 2, 4, 4]$ 位，得到编码后的码字
$[0.001, 0.10, 0.1101, 0.1111] .$
$\blacksquare$

3.3. 为什么Shannon-Fano-Elias码是一个唯一可解码？
根据前面所述编码方法，假如我们采用浮点数表示，则每个码字直接由对应的修改后的累计概率分布函数表示，因为累积概率分布函数是独一无二的，因此这样的浮点数可以唯一译码。下面需要证明的是，即使我们采用有限长度精度去表示这个浮点数，仍然是可以唯一译码的。

有限长度近似会导致数值相较于原浮点数增加或者减小。我们记取 $l_i$ 长度的 $\bar{F}_i$ 为 $\bar{F}^{'}_i$ 。我们有
$\bar{F}_i-\bar{F}^{'}_i<2^{-l_i}.$ 因为 $l_i=\lceil -\log_Dp_i \rceil +1$ ，所以有
$-\log_Dp_i+1\leq l_i\leq \log_Dp_i+2.$ 进一步
$p_i/4\leq 2^{-l_i}\leq p_i/2.$ 其中我们需要用到等式右边的上界，有
$\bar{F}_i-\bar{F}^{'}_i< 2^{-l_i}\leq p_i/2.$

可见，有限长度量化引入的误差小于等于 $p_i/2$ ，这个误差如果使得量化后的 $\bar{F}^{'}_i$ 的值变小到 $\bar{F}^{'}_{i-1}$ ，则导致量化后的码不能唯一译码。比如 $\bar{F}_i$ 经过量化后变小为 $\bar{F}^{'}_i=x$ ， $\bar{F}_{i-1}$ 经过量化后变小为 $\bar{F}^{'}_{i-1}=x$ ，此时 $\bar{F}^{'}_i=\bar{F}^{'}_{i-1}$ ，两个码字用同一个值编码，不能唯一译码。

现在关注 $\bar{F}_{i}$ 和 $\bar{F}_{i-1}$ 之间的差。
$\bar{F}_{i}-\bar{F}_{i-1}=p_{i}/2+p_{i-1}/2$ 有了上面的式子，我们知道，量化最多将 $\bar{F}_i$ 变小不到 $2^{-l_i}$ ，而 $\bar{F}_{i}$ 和 $\bar{F}_{i-1}$ 之间的差大于这个量，所以 $\bar{F}^{'}_i$ 不可能等于 $\bar{F}_{i-1}$ ，自然更不可能等于 $\bar{F}^{'}_{i-1}$ 。
$\blacksquare$

3.4. Shannon-Fano-Elias码的平均码长上界为
$L\leq H_D(X)+2.$
证明：
前面Shannon码的构造是令 $l_i=\lceil-\log_Dp_i\rceil$ ，其上界是 $H_D(X)+1$ 。Shannon-Fano-Elias码的构造是令 $l_i=\lceil-\log_Dp_i\rceil+1$ ，其上界是 $H_D(X)+2$ 。这样很好记忆。证明如下。由 $l_i=\lceil-\log_Dp_i\rceil+1$ 得
$\begin{aligned} l_i\leq -\log_Dp_i+2 \end{aligned}$ 于是
$\begin{aligned} L&=\sum_{i}p_il_i\\ &\leq \sum_{i}p_i(-\log_Dp_i+2)\\ &\leq H_D(X)+2. \end{aligned}$

$\blacksquare$

4. 其他信源编码方法

Arithmetic code、Lempel-Ziv code和run-length参考参考文献[2]。注意Lampel-Ziv code的理解。

5. prefix码的redundancy

5.1. 到达概率、分支概率、节点条件熵的定义。
对于一个 $D$ -ary的prefix码，我们可以用一个 $D$ -ary的树来表示，这个树的每个叶子结点对应一个码字，每个叶子结点的深度就是这个码字的长度。
到达概率定义为一个节点的概率，叶子结点的概率就是对应的随机变量 $X$ 的概率 $p_i$ 。
分支概率定义为一个节点传向其父节点的概率。

显然一个节点 $k$ ，其到达概率 $q_k$ 等于其所有子节点 $j$ 的分支概率的和：
$q_k=\sum^{D}_{j=1}p_{k,j}.$

节点条件熵定义为 $h_k=H_D(\{\frac{p_{k,1}}{q_k},\frac{p_{k,2}}{q_k},\cdots,\frac{p_{k,D}}{q_k}\})$
$\blacksquare$

5.2. 一个prefix码的熵等于所有内部节点（非叶子结点）的条件熵的加权和。
$H_D(X)=\sum_{k}q_kh_k$
证明：
对于每个节点，我们引入一个辅助变量 $a_k$ ：
$a_k=-q_k\log_D q_k.$ 不难发现
$\begin{aligned} q_kh_k&=-q_k\sum^{D}_{j=1}\frac{p_{k,j}}{q_k}\log_D \frac{p_{k,j}}{q_k}\\ &=-\sum^{D}_{j=1}p_{k,j}\log_D \frac{p_{k,j}}{q_k}\\ &=\sum_{k^{'}}a_{k^{'}}-a_k \end{aligned}$ 其中 $a_{k^{'}}$ 是节点 $k$ 的子节点的辅助变量。于是，每个内部节点的 $q_kh_k$ 均可以表示成他的所有子节点的辅助变量的和减去自己的辅助变量。因此，对所有内部节点的 $q_kh_k$ 求和得到
$\sum_{k}q_kh_k=H_D(X)-a_0,$ 其中 $a_0$ 是根节点的辅助变量，显根节点有 $q_0=0$ ，因此 $a_0=0$ ，于是我们得到
$H_D(X)=\sum_{k}q_kh_k.$
$\blacksquare$

上可以根据内部节点求和得到，平均长度也可以。
**5.3.**一个prefix码的平均长度满足
$L=\sum_k q_k.$
证明：
引入一个辅助变量 $a_{k,i}$ ，如果内部节点 $k$ 是叶子结点 $i$ 的前驱，则 $a_{k,i}=1$ ，否则 $a_{k,i}=0$ 。于是
$l_i=\sum_k a_{k,i}.$ 进一步
$\begin{aligned} L&=\sum_i p_il_i\\ &=\sum_i p_i \sum_k a_{k,i}\\ &=\sum_k \sum_i p_ia_{k,i}\\ &=\sum_k q_k. \end{aligned}$
$\blacksquare$

5.4. 内部节点的redundancy的定义。对于内部节点 $k$ ，他的redundancy定义为
$r_k=q_k(1-h_k).$

前面的熵的上界告诉我们 $h_k\leq 1$ ，当且仅当 $q_{k,1}=q_{k,2}=\cdots=q_{k,D}=1/D$ 时取等号，此时 $r_k=0$ 。换句话说，只有当当前节点是balanced的时候，他的redundancy为0。
$\blacksquare$

5.5. prefix码的总redundancy可以表示成所有内部节点的redundancy之和：
$R=\sum_k r_k.$
证明：
$\begin{aligned} R&=L-H_D(X)\\ &=\sum_k q_k-\sum_kq_kh_k\\ &=\sum_kq_k(1-h_k)\\ &=\sum_kr_k. \end{aligned}$
$\blacksquare$

参考文献

[1] Raymond W. Yeung，Information Theory and Network Coding，2008。
[2] Ranjan Bose，Information Theory, Coding and Cryptography，2008。

Puppy_L

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
信源编码1：零误差数据压缩

1. 考虑一个DDD-ary的信源编码，它是由一个随机变量XXX通过某种映射得到的集合D∗D^{*}D∗，集合D∗D^{*}D∗中包含的元素是码字，每个码字的符号是DDD进制的。例如，考虑一个222-ary的信源编码，其对应的随机变量XXX的字母表为χ={A,B,C,D}\chi=\{A,B,C,D\}χ={A,B,C,D}（先不关心每个字母对应的概率pi(x)p_i(x)pi(x)）。随机变量到码字的映射关系如下：A→0B→1C→01D→10.\begin{aligned}&A\righ
复制链接

扫一扫