java整数可变字节压缩

最新推荐文章于 2024-08-18 20:53:04 发布

VIMACER

最新推荐文章于 2024-08-18 20:53:04 发布

阅读量2.5k

点赞数 1

分类专栏： fedora 文章标签： Java 编码压缩

fedora 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

在各个平台中整数占用的字节数一直比较固定，通常是4个字节。它的表示的整数范围是-2147483648~2147483647。然而对于一些数值较小的整数，因为有大量的位数是前导0，这些比特在数值的表示中是没有意义的，仍旧花费4个字节去存储则显得有些浪费。这里的一篇文章『Variable byte codesd』，讲述正整数的可变字节编码的压缩，它可以在需要存储大量正整数的情况下有着较为实际的应用。

正整数可变字节编码压缩算法的思路是：

将每个字节分为2个部分：低7位为负载位(payload)，用于存储数值，最高位为标志位(continuation bit)，取值0或者1，用于标识当前字节是否是该整数在可变字节编码中的最后一个字节。

例如正整数130，它的二进制表示(4字节，共32位)为：00000000 00000000 00000000 10000010。经过可变字节编码压缩之后，130可压缩为2个字节：

Byte0: 0 0000010

Byte1: 1 0000001

Byte0的最高位为0，表示该字节并不是最后一个字节，低7位存储原比特流中的低7位。Byte1的最高位为1，表示该字节已经是最后一个字节，低7为存储原比特流中的第8位-第14位。舍弃原比特流中的所有前导0。

整数可变字节编码压缩算法的Java实现如下：

/**
 * 对正整数列表进行可变字节编码，返回压缩后的字节数组。
 * @param intList
 * @return
 */
private static List<Byte> intToByte(List<Integer> intList) {
    List<Byte> list = new ArrayList<Byte>();
    if (intList == null) {
        return null;
    }
    for (int n : intList) {
        //遍历列表中的每个正整数。
        while (n > 0) {
            int byteOf = n % 128; //得到正整数的低7位。
            if (n < 128) {
                //如果n值已经能由7位表示，则该字节是最后一个字节。
                byteOf += 128; //将该字节的最高位置为1。
                list.add((byte) byteOf);
                break; //当前整数的可变字节编码结束。
            } else {
                list.add((byte) byteOf);
            }
            n /= 128;
        }
    }
    return list;
}
 
/**
 * 将可变字节编码形式存储的字节数组还原为正整数列表。
 * @param byteList
 * @return
 */
private static List<Integer> byteToInt(List<Byte> byteList) {
    List<Integer> list = new ArrayList<Integer>();
    int n = 0;
    int byteStartPerInt = 0;
    for (int i = 0; i < byteList.size(); i++) {
        //依次读取字节数组。
        if (byteList.get(i) >= 0) {
            //如果当前字节的值大于0，则表示最高位是0，该字节不是最后的字节。
            n += byteList.get(i) * Math.pow(128, i - byteStartPerInt);
        } else {
            //如果当前字节的值小于0，则表示最高位是1，该字节是最后的字节。
            n += (byteList.get(i) + 128) * Math.pow(128, i - byteStartPerInt);
            list.add(n);
            n = 0;
            byteStartPerInt = i + 1;
        }
    }
    return list;
}

经过简单的测试，随机生成1w个值为1-10⁵之间的正整数，上述算法的压缩比约为0.29。也就是说，本来需要4w个字节存储的整数现在只需要2.8w左右的存储空间。随着测试数据的值越大，压缩率会变小，而当测试数据的值越小，压缩率会变大。极端情况下，上述算法的压缩率最大能达到75%。

由于可变字节编码压缩算法是建立在标识位的基础上的，因此，当待编码的正整数大于128⁴时(针对4个字节表示整数的情况)，算法会失去作用，非但不能压缩，反而会引起数据膨胀，这也是该算法的最大缺陷。另外，如果对待编码正整数的顺序没有要求的话，可以先对整数列表排序，然后存储相邻两个正整数之间的差值，通过这样的操作之后，待编码的整数就以“差值”的形式变小了，从而提高压缩率。