数据压缩（2）——变长编码

永恒星

于 2024-08-28 20:11:02 发布

阅读量298

点赞数 3

分类专栏：计算机基础文章标签：定长编码变长编码 VLC

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/enternalstar/article/details/141532143

版权

计算机基础专栏收录该内容

7 篇文章 0 订阅

订阅专栏

【定长编码】

变长和定长是很基本的概念，不光是在数据压缩，在其他很多地方都可以见到，这里就不多说了。

前文说过，在数据压缩时，我们需要用某些字符A替换或修改某些字符B，字符A占用的存储空间更小一些。

以数据集TOBEORNOT 为例，共出现T O B E R N六个字符，若是ASCII编码，需要8x9共72个二进制位。

在定长编码中，需要3个二进制（能区8种情况），即码字长度为3，需要3x9 = 27个二进制位，优化幅度很大。

描述不同的3位二进制对应什么字符的叫码字表，编码时将码字表写入，再一次写入每个字符的编码。读取时，先读取码字表，码字表和字符之前很好区分;字符之间可以通过固定长度区分。

可以发现，ASCII编码实际就是定长编码，给英文字母、数字、常见符号编码，用了8个二进制位。

你可以推测，我们一般用ASCII编码或其他文本编码方式保存的文本文件一定存在类似码字表的东西。

我们给的数据集的例子很小，实际上数据集中的字符个数（即长度）成千上万很正常。随着长度越来越长，出现的不同字符就会越来越多。

如果ASCII表上的大部分字符都出现过了，那么定长编码的压缩方式就很差，需要采用变长编码。

【变长编码】

变长编码(VLC,variable-length codes)会给出现频率高的字符更短的码字，这样编码后数据集的整体长度就降低。

其核心在于需要通过一套规则，给不同字符合适的码字，以确保频率高的字符有更短的码字，并使得不同码字可以互相区分。

难点在于如何从一个01的stream中区分码字，定长编码每次读取固定长度就行，变长编码不清楚每次需要读取的长度。

一种常见的思路是给定每次需要读取的长度。这种方式在数据压缩中行不通，因为长度的存储本身也要占用一定空间。

也即，不能通过太多额外的信息去确定，需要通过从stream本身已经读取或即将读取的二进制位做区分。

对数据集进行变长编码的步骤是：

遍历数据集中的所有字符并计算每个字符出现的频率
根据频率给不同字符分配码字，并建立码字表
再次遍历数据集根据码字表压缩数据集

VLC算法主要是关于如何生成码字的，各种各样的算法很多，需要用的时候查论文即可。但VLC不是目前主流的压缩算法，只在特定的少数场景下才会使用。

【Varint编码】

ProtoBuf中的Varint是VLC适应计算机的拓展算法，可以看到VLC的码字不按字节或字对齐，每次只读取一个二进制位，解码性能很差。

其被用来编码整数，编码时会在一个字节（=8bit）的最高位设置（MSB）为1来区分字符，如果当前读取的字节的最高位为1，那么表示需要继续读取下一位，剩下的7位用来表示该数的二进制补码。

例如，整数10可表示为 0000 1010，整数300的二进制为1 0010 1100，补码是其自身，需要两个字节，先从低到高取7位再加上MSB为 1010 1100，另外要给编码的字节为0000 0010，合起来为300的编码1010 1100 0000 0010

正常情况下一个int类型要4个字节，而采用这种方式，对于小一些的整数，一个字节就够了，稍微大些的整数，两个字节也没问题。更大的整数会导致超出4个字节。

而在使用PB的大部分场景中，int类型整数都不会太大。

更进一步来看，所有字符都是01组合表示的，都可以当作整数来看待，都可以使用Varint编码

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
数据压缩（2）——变长编码

变长编码(VLC,variable-length codes)会给出现频率高的字符更短的码字，这样编码后数据集的整体长度就降低。，编码时将码字表写入，再一次写入每个字符的编码。难点在于如何从一个01的stream中区分码字，定长编码每次读取固定长度就行，变长编码不清楚每次需要读取的长度。其核心在于需要通过一套规则，给不同字符合适的码字，以确保频率高的字符有更短的码字，并使得不同码字可以互相区分。如果ASCII表上的大部分字符都出现过了，那么定长编码的压缩方式就很差，需要采用变长编码。
复制链接

扫一扫

专栏目录

永恒星 CSDN认证博客专家 CSDN认证企业博客

码龄8年

145: 原创

6万+: 周排名

9542: 总排名

33万+: 访问

: 等级

3078: 积分

381: 粉丝

663: 获赞

60: 评论

1578: 收藏

私信

关注

热门文章

分类专栏

最新评论

UI框架与MVC模式详解（3）——MVC\MVP\MVVM
小王毕业啦: 博主的这篇文章真的让我对UI框架与MVC模式有了全新的认识！细节描写非常到位，让我感受到了博主的深厚功底。我期待着博主未来能够持续分享更多好文，同时也希望能够得到博主的指导，共同进步。非常感谢博主的分享和支持！
对Unity中的欧拉角的理解
tt枫1900: 哥，文章里面transform.Rotate示例，旋转角度绕x和y写反了
UI框架与MVC模式详解（2）——数据管理
Kwan的解忧杂货铺@新空间代码工作室: 博主的文章总是带着深思熟虑，给予我新的学识，每篇博客都是一次心灵的洗礼，你的分享不仅教育了我，也丰富了我的内心世界。期待你的未来更新，继续前行！
对球面线性插值的理解
永恒星: 这里就是已知vo和v1，求v2呀，v2是和vo垂直的向量
对球面线性插值的理解
毒行江湖: 引用「这里只有v2未知，设v1在v0的投影向量为v3，那么v3 = （v1*v0)*v0，v2 = Nor」前面都i还好，到这就看不懂了后面更看不懂，怎么破，求大佬指点

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。