数据压缩（1）——简介

永恒星

于 2024-08-25 17:50:06 发布

阅读量405

点赞数 11

分类专栏：计算机基础文章标签：数据压缩信息熵

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/enternalstar/article/details/141230892

版权

计算机基础专栏收录该内容

6 篇文章 0 订阅

订阅专栏

【前言】

数据压缩存在于计算机、网络的各个地方，是很底层的技术支持，例如歌曲、图像、视频、网页、文本等的保存和传输都是用过数据压缩算法的。

总的来说，我们常使用数据压缩来增多硬盘存储的内容、减少网络传输的流量。

数据压缩研究的是，在可接受的信息恢复程度下，可以将信息变得有多紧凑。通常有两个思路：减少数据中不同符号的数据量；用更少的位数对更常见的符号进行编码。

数据压缩的算法多种多样，没有万能的算法，通用算法能保证数据集经过压缩后会变小，但与数据特征相匹配的算法能将数据集压缩得更小。

想要取得更好得压缩效果，需要根据数据集的特征选择合适的算法，并在该算法原理基础上做适合数据集的调整，这是开发可以做的事情。

压缩算法可以分为五类：变长编码、统计压缩、字典编码、上下文模型和多上下文模型。

为了压缩同一个数据集，可以在压缩过程中，多次使用同一个和不同算法。正如为了给数据集排序多次使用排序算法一样。

【信息熵】

在信息论中，熵（英语：entropy，又称信息熵、信源熵、平均自信息量）是接收的每条消息中包含的信息的平均量

一文看懂信息熵的本质——谈谈自己对信息熵的理解-CSDN博客

单个整数的信息熵

对于给定的任意十进制数，通过计算其对应的log2函数值，可以知道用多少位二进制表示，其也是这个整数的熵（entropy），例如：

2的log2为1，需要两位二进制
3的log2为1.58，需要两位二进制
4的log2为2，需要3位二进制
7的log2是2.80，需要三位二进制
8的log2为3,需要4位二进制

但在计算机中会用固定长度的二进制位数表示整数，所以实际的用的二进制位数比理论上多。

数据集的信息熵

对于一个数据集，在数据压缩中，信息熵表示每个符号平均所需要的最小二进制个数。

注意数据集中的基本单位是每个符号，在不同的应用中，所看的基本单位是不同的，计算出来的信息熵也有区别

信息熵只表示数据集中信息的随机性，也叫不确定性。如果两个数据集的每个符号出现的概率相同，数据集长度不同或符号排列顺序不同，那么计算出来的信息熵是一样的。

因此，在数据压缩的角度下，信息熵不表示数据集所传递的内容，即与信息量无关。

熵越大，表明平均需要的二进制位数越多，存储时占用的空间就越大。数据压缩时会替换或修改某些字符使得数据集的熵变小。

如果所有字符出现概率等同，那么数据集的熵较大。如果有字符出现概率很大，表明数据冗余较大，有较大的压缩空间。

【参考】

《数据压缩入门》

关注

11
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
数据压缩（1）——简介

数据压缩存在于计算机、网络的各个地方，是很底层的技术支持，例如歌曲、图像、视频、网页、文本等的保存和传输都是用过数据压缩算法的。总的来说，我们常使用数据压缩来增多硬盘存储的内容、减少网络传输的流量。数据压缩研究的是，在可接受的信息恢复程度下，可以将信息变得有多紧凑。通常有两个思路：减少数据中不同符号的数据量；用更少的位数对更常见的符号进行编码。数据压缩的算法多种多样，没有万能的算法，通用算法能保证数据集经过压缩后会变小，但与数据特征相匹配的算法能将数据集压缩得更小。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。