信息论与编码_信息论与编码期末复习二

最新推荐文章于 2022-05-25 22:18:33 发布

weixin_39722188

最新推荐文章于 2022-05-25 22:18:33 发布

阅读量905

点赞数

文章标签：信息论与编码

本文链接：https://blog.csdn.net/weixin_39722188/article/details/111366186

版权

本文深入探讨信息论与编码中的可变长前缀码，重点讲解霍夫曼编码的原理和优化问题。通过信源编码定理，阐述如何通过霍夫曼编码实现期望长度最小化的最优前缀码。同时，文章提到了霍夫曼编码在处理概率变化和额外比特问题上的局限性，以及算数编码和Lempel-Ziv编码作为替代方案的优势。

摘要由CSDN通过智能技术生成

在这一节，将讨论可变长符号码（前缀码是符号码的一种），它每次只对一个信源符号进行编码，而不是对N个信源符号的巨大字符串进行编码。这些码是无损的：这与上一节讨论的分组码不同，符号码能毫无差错地压缩和解压缩；但是有可能存在这样一种情况，即编码后的字符串有时比原本的信源串还长。

我们的基本思想是这样的，通过给更有可能出现的结果分配一个短一点的码字，给不太可能出现的结果分配长的码字，从而在平均的意义下达到压缩的目的。

下面是一些关键问题：

1）假如符号码是无损的，会有什么影响？例如一些码字确实可以更短，那么剩下的码字必须增至多长？

2）如何保证压缩过程是可行的？我们又该如何保证符号码易于译码？

3）关于最优符号码，为了获得最佳的压缩，该如何分配码长？可实现的最佳压缩是什么？

下述定理说明了香农信息量和熵确实处于关键位置。

信源编码定理（符号码）：存在总体X的可变长度编码C，使得已编码符号的平均长度L（C,X）

[H(X),H(X)+1)。

只有当每个结果的码长都等于它的香农信息量时，这个平均长度才等于熵H（X）。我们还将定义一个最优符号码的算法，即所谓的霍夫曼编码算法。

一、实用符号码

对实用的符号码有些基本的要求。

1）任何已编码的字符串必须有唯一的译码。对任意的两个不同的字符串不会有相同的编码，也就是编码这个映射必须是一个单射。

2）符号码必须易于译码。如果符号码到达时马上就可以识别出码字的结尾，那么这个码就很容易译码，这意味着没有一个码字是另一个码字的前缀。我们将会证明，如果限定我们的符号码为前缀码，不会令性能有任何损失。事实上，前缀码是和树结构相对应的。

3）编码应取得尽可能多的压缩。

1.1 Kraft不等式

忽略不同符号的概率。我们先引入Kraft不等式，再解释其由来。

Kraft不等式：对于任何定义在二元符号集｛0，1｝上的可唯一译码的码C（X），其码长必须满足

。

其中

，长度为l的码子的费用为

。

下面说明费用的来源的一些直观理解。

如果采用｛00，01，10，11｝之类的码，并缩短其中的一个码字，例如00—>0，那么只有当我们加长其他码字时，才可以保持其可唯一译码性。因此，能够花费在码字上的预算显然是受限的，并且越短的码字费用越高。

考虑两种情形：

case1：如果单纯从长度l=3的码字来构造一个码字，要保持可唯一译码性，我们可以找出8种码字。当然，一旦我们选择了这8种码字，那么我们就不能在码字中再加入其它长度的码字了（违反前缀码定义，注意，前缀码是可以唯一译码的，但能唯一译码的不一定就是前缀码）。

case2：如果要包含一个长度为1的码字“0”，而其它码字的长度为3，此时我们仅仅只能得到四个码字｛100，101，110，111｝。仔细思考一下，我们便能发现我们再也不能有其它的选择长度为3码字的方法，使得我们得到更多码字。如此，从数量上来说，一个长度为3的码字所需要付出的代价比一个长度为1的码字会小4倍。

我们定义可花费在码字上的总预算为1，我们很自然的定义长度为l的码子的费用为

，这确实是一个合适的定价度量。例如，长度为3的码字各花费1/8，长度为1的码字各花费1/2。可以将预算花费在任何码字上，如果超出了预算，那么这个码字一定不会是可唯一译码的。另一方面，如果

，那么码也许是可唯一译码的。这也就是Kraft不等式的来源，一个可唯一译码的必要的条件，但并不充分。

完全性：如果一个可唯一译码的码，其Kraft不等式的等号成立，那么它叫做完全码。

我们想要可唯一译码的码，而前缀码是一个可唯一译码的码，也易于译码。所以我们只关注前缀码，那么情况会简单些。而对于任何信源，都存在亦为前缀码的最优符号码。

Kraft不等式和前缀码：已知一组码字长度满足Kraft不等式，那么就存在一个可唯一译码的前缀码具有这样的码字长度。

Kraft不等式更应该被称为Kraft-McMillan不等式：Kraft证明了，如果不等式被满足，那么存在一个具有给定码字长度的前缀码；McMillan证明了，可唯一译码性意味着不等式的成立。

1.2 符号码的信源编码定理

现在将概率｛

｝加入。给定一组符号概率（例如下图），如何设计最佳符号码，使得其具有最小可能期望长度L（C,X）的符号码？最小可能期望是多少？如何分配码字长度并非显而易见的，假如我们给更可能出现的符号分配短一些的码字，那么期望长度可能会被减小；另一方面，由Kraft不等式可知，缩短一些码字的长度必定会造成其他码字的增长。