数据压缩与信息熵

最新推荐文章于 2024-01-10 02:32:59 发布

ruanyf

最新推荐文章于 2024-01-10 02:32:59 发布

阅读量68

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ruanyf/article/details/126701167

版权

本文探讨了数据压缩的原理和极限，通过反证法证明并非所有文件都能无限压缩。介绍了信息熵的概念，它是衡量文件内容随机性的指标，与压缩比率直接相关。文中通过实例解释了信息熵的计算，并指出其与热力学熵的区别。此外，还提到了生命链记忆网这一个人史馆平台。

摘要由CSDN通过智能技术生成

1992年，美国佐治亚州的WEB Technology公司，宣布做出了重大的技术突破。

该公司的DataFiles/16软件，号称可以将任意大于64KB的文件，压缩为原始大小的16分之一。业界议论纷纷，如果消息属实，无异于压缩技术的革命。

数据压缩

许多专家还没有看到软件，就断言这是不可能的。因为根据压缩原理，你不可能将任意文件压缩到16分之一。事实上，有一些文件是无法压缩的，哪怕一个二进制位，都压缩不掉。

后来，事实果然如此，这款软件从来没有正式发布。没过几年，就连WEB Technology公司都消失了。

那么，为何不是所有的文件都可以被压缩？是否存在一个压缩极限呢，也就是说，到了一定大小，就没法再压缩了？

一、压缩的有限性

首先，回答第一个问题：为什么WEB Technology公司的发明不可能是真的。

反证法可以轻易地证明这一点。假定任何文件都可以压缩到n个二进制位(bit)以内，那么最多有2ⁿ种不同的压缩结果。也就是说，如果有2ⁿ+1个文件，必然至少有两个文件会产生同样的压缩结果。这意味着，这两个文件不可能无损地还原(解压缩)。因此，得到证明，并非所有文件都可以压缩到n个二进制位以下。

很自然地，下一个问题就是，这个n到底是多少？

二、压缩原理

要回答一个文件最小可以压缩到多少，必须要知道压缩的原理。

压缩原理其实很简单，就是找出那些重复出现的字符串，然后用更短的符号代替，从而达到缩短字符串的目的。比如，有一篇文章大量使用"中华人民共和国"这个词语，我们用"中国"代替，就缩短了5个字符，如果用"华"代替，就缩短了6个字符。事实上，只要保证对应关系，可以用任意字符代替那些重复出现的字符串。

本质上，所谓"压缩"就是找出文件内容的概率分布，将那些出现概率高的部分代替成更短的形式。所以，内容越是重复的文件，就可以压缩地越小。比如，

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据压缩与信息熵

1992年，美国佐治亚州的WEB Technology公司，宣布做出了重大的技术突破。 ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。