【计算机科学与技术】信息论笔记（4）：数据压缩

最新推荐文章于 2024-01-04 00:03:32 发布

招财猫qwq

最新推荐文章于 2024-01-04 00:03:32 发布

阅读量813

点赞数

分类专栏：计算机科学与技术文章标签：概率论

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42711949/article/details/107738424

版权

本文介绍了数据压缩中的编码概念，如Shannon-Fano编码、Kraft不等式、最优码、Huffman编码和算术编码。通过定理与编码方法的探讨，展示了如何在概率论基础上实现数据的有效压缩。

摘要由CSDN通过智能技术生成

200801本篇是学习信息论的入门笔记，希望能与各位分享进步！这是第四章：数据压缩~

文章目录

- 4. 数据压缩

4. 数据压缩

4.1 编码的基本概念

贝尔实验室的Shannon 和 MIT 的 Fano几乎同时提出了最早的对符号进行有效编码从而实现数据压缩的 Shannon-Fano 编码方法。

可以证明，算术编码得到的压缩效果可以最大地减小信息的冗余度，用最少量的符号精确表达原始信息内容。算术编码是部分匹配预测（PPM）技术的变体

定义4.1.1 关于随机变量 $X$ 的信源编码 $C$ 是从 $X$ 的取值空间到 $D^\ast$ 的一个映射，其中 $D^\ast$ 表示字母表 $D$ 上有限长度的字符串所构成的集合。用 $C (x)$ 表示 $x$ 的码字，并用 $l (x)$ 表示 $C (x)$ 的长度。
定义4.1.2 设随机变量 $X\sim p(x)$ ，信源编码 $C (x)$ 的期望长度为

$\sum_{x\in \mathcal{X}}p(x)l(x)$

其中 $l (x)$ 表示对应于 $x$ 的码字长度。

定义4.1.3 如果编码将 $X$ 的取值空间中的每个元素映射成 $D^\ast$ 中不同的字符串，即 $\neq x^\prime \Rightarrow C(x) \neq C^\prime(x)$ 则称这个编码是非奇异的。
定义4.1.4 编码 $C$ 的扩展 $C^\ast$ 是从 $X$ 上的有限长字符串到 $D$ 上的有限长字符串的映射，定义为

$C(x_1,x_2,...,x_n)=C(x_1)C(x_2)...C(x_n)$

$C(x_i)$ )表示相应码字的串联。

定义4.1.5 如果一个编码的扩展码是非奇异码，则称该编码是唯一可译的。信息序列与码字序列一一对应。
定义4.1.6 若码中无任何码字是其它码字的前缀，则称该码为前缀码。
每一码字传输完毕，即可译码，称为即时码。

4.2 Kraft不等式

定理4.2.1（Kraft不等式，前缀码存在定理） 含有 $D$ 个码字的编码系统，当且仅当各个码字长度
$l_1,l_2,...,l_m$ 满足Kraft不等式

$\sum_{k=1}^m D^{-l_k} \leqslant 1$

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。