可变长度的编码方式

最新推荐文章于 2023-11-02 17:41:54 发布

hongyewell

最新推荐文章于 2023-11-02 17:41:54 发布

阅读量6.2k

点赞数 1

可变长度整数（以下简称为varint）压缩算法是将整数压缩成比通常需要的更小空间的一种方法。一个varint算法以用一个字节表示10，而用4个字节来表示8亿。

比如，在应用中，大多数的值都在0到100之间，而有些值可能会超过16384，如果使用固定长度的空间来表示这些值的话，就需要一个完整的32位整数，即使大多数值用单个字节来表示就够了。

正是因为在中大多数数字的分布并不均匀，varint算法才有了用武之地。通常情况下，较小的数字出现的概率大于较大的数字。varint算法作出的权衡是，用较小的空间存储小数字，而用较大的空间存储大数字。因此，采用这种算法来对整数进行编码是有意义的，它可以节省存储数据需要的空间或者传输数据时所需的带宽。

两种varint编码的常见方式是使用前缀长度和使用连续位标识。

连续位标识

Protobuf用的是连续位标识技术，使用每个字节的第一位来标识是否需要继续向后读。每个字节低7位用于实际的编码。

比如对于数字25，8位二进制为0001 1001。注意最左边一位是0，在Protobuf中，这意味着不需要继续向后读了。采用这样的技术，0到127之间的数字都可以用一个字节表示。

对于大于127的数，比如225，二进制为1110 0001，如果用7个bit进行编码，则得到两个分组000 0001和110 0001。对Protobuf来说，最不重要的分组首先出现，这意味着应该向低阶组添加一个连续位0 000 0001和1 110 0001。逆置分组后，得到1110 0001和0000 0001。这样就使用两个字节对225进行了编码。

解码的过程如下，先读一个字节，如果该字节的高位第一个bit为1，则继续读；如果为0，则停止。移除每个字节的第一个bit，逆置剩余的bit分组，重新组合后得到原始的数据。

还是以225为例。