6.信息论（一）：信息量、熵和最优编码

最新推荐文章于 2023-03-16 11:20:32 发布

cptu

最新推荐文章于 2023-03-16 11:20:32 发布

阅读量6.4k

点赞数 15

分类专栏：信息论基础文章标签：编码自然语言处理机器学习数据压缩二进制

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AckClinkz/article/details/78740427

版权

本文介绍了信息论的基础概念，包括定长编码、变长编码和无损编码。在变长编码中，通过使用前缀编码解决了编码的唯一可译性问题，并引入了码树和Karft不等式，证明了满足一定条件的码字长度可以构建前缀码。最优编码的期望长度与熵相等，即码长等于logr1pi，这里的r是字母表大小，pi是每个源符号的概率。

摘要由CSDN通过智能技术生成

前言

信息论是由克劳德·香农发展，用来找出信号处理与通信操作的基本限制，如数据压缩、可靠的存储和数据传输等。自创立以来，已被应用多个领域，例如自然语言处理(NLP)、机器学习等领域。

定长编码(Block Codes)

让我们从一个例子开始。小明酷爱动物，日常谈吐中经常提及各种动物，包括：狗、猫、鱼和鸟。一天，小明见到小红（原谅我这么俗的名字），两个人决定用二进制的方式来交流。为了交流方便，小明和小红决定制定一套编码规则

编码映射

此时，若小明要发出“狗猫狗鸟”的信息，需要完成以下过程：

编码过程

通过以上三个过程，便可以将“狗猫狗鸟”转化为二进制了。

变长编码(Variable Codes)

实际中，通讯往往需要付费，假设通讯按位（bit）收费。为了省钱，小明和小红需要寻找合适的编码策略。在设计编码策略中，小红统计了小明的说话

词分布

此时，若按照上面的定长编码，每个字的平均编码长度

L (x) = 2 \times 1 2 + 2 \times 1 4 + 2 \times 1 8 + 2 \times 1 8 = 2

$L(x)=2\times\frac{1}{2}+2\times\frac{1}{4}+2\times\frac{1}{8}+2\times\frac{1}{8}=2$

若想进一步压缩平均编码长度，变长编码是一种有效的手段。变长编码的基本思想：出现频率高的字符使用短编码，出现频率低的字符使用长编码。（你可能会问，为什么不让所有的编码都使用短编码？嘿嘿，都使用短编码，还能实现一一对应吗？）基于上述思想，小明和小红重新指定了一套新的编码策略:

词分布

此时，每个字的平均编码长度为

L (x) = 1 \times 1 2 + 2 \times 1 4 + 3 \times 1 8 + 3 \times 1 8 = 1.75

$L(x)=1\times\frac{1}{2}+2\times\frac{1}{4}+3\times\frac{1}{8}+3\times\frac{1}{8}=1.75$

显然，新的策略能够帮小明和小红省很多钱。那么，小明和小红是如何设计的呢？

无损编码(lossless compression)

为了便于接下来的描述，以下图为例介绍几个名称

词分布

其中狗、猫、鱼等称为源符号， $0$ 、 $01$ 、 $110$ 等称为码字，整个映射使用 $C(x)$ 表示。

无损编码

小明和小红的交流中，首先要保证信息的无损性，即保证编码后的信息能够无损的复原。若使用定长编码，复原信息轻而易举便可实现，而变长编码则不同。假如使用上图,此时小明给出的代号为

词分布

根据约定好的码表，小红既可以理解成“狗狗鸟狗”，也可以理解成“狗猫鱼”。显然，这是小明和小红不愿意看到的。通过查阅资料，小明和小红发现他们遇到的问题是“无损编码”问题：

无损编码是一类数据压缩算法，其压缩的数据能够无损的复原为原始数据。

若 $C(x)$ 是无损编码，它需要是：

非奇异编码（Non-singular code）： $x_1 \neq x_2 \Longrightarrow C(x_1) \neq C(x_2)$

在实际中，我们往往需要一次编码一系列字符，而不是一次编码一个字符，因此它需要满足：

可扩展编码（Extension of a code）： $C(x_1,...,x_n)=C(x_1)...C(x_n)$
唯一可译解码（Unique decodability）： $x_i^n \neq x_j^m \Longrightarrow C(x_i^n$

最低0.47元/天解锁文章

关注

15
点赞
踩
19

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。