涉及到原码和补码的知识点,可参考:
原码,反码,补码之详解
一:zigzag压缩算法出现的必要性
一般我们用到的整数都是比较小的,这类的整数转换成二进制之后,高位绝大部分是0,就比如整数1 ,二进制为0000 0001。那么很多的压缩算法就是利用高位无效0值来实现压缩的。例如Varints
但是这种压缩算法往往对负数很不友好,因为负数的高位是1,1在二进制中是有意义的存储,所以不能省略进行压缩
所以就有了zigZag压缩算法,一种对负数友好的压缩算法
二:步骤
zigZag压缩算法简单的来说,就是在二进制补码中将符号位移到最后一位,其他位左移;除了最后一位符号位,其他位取反然后进行压缩
分步骤详解:
-
补码将符号位移到最后一位。对于位运算相当于n>>31。
- 如果是正数的话,移动之后为0000 0000 0000 0000 0000 0000 0000 0000。因为对于符号位,0表示正数,所以最后一位是0,正数的右移位运算时左边空出的高位补0
- 如果是负数的话,移动之后为1111 1111 1111 1111 1111 1111 1111 1111。因为对于符号位,1表示的是负数,所以最后一位是1,负数的右移位运算是左边空出的高位补1
-
数值位左移1位。相当于是n<<1
不管是正数还是负数,左移1位之后右边的空位都补0。- 对于数值较小的正数来说,补码=反码=原码。那么高位大部分都是便于压缩的0,类似于000… xxxx
- 对于绝对值较小的负数来说,补码的高位大部分都是1,类似于111…xxx
-
所以如果我们对1和2的结果做^操作的话,就会有
- 对于正数:(0000 0000 0000 0000 0000 0000 0000 0000)^(000… xxxx)=000… xxxx
- 对于负数:(1111 1111 1111 1111 1111 1111 1111 1111)^(111…xxx)=000… yyyy
所以不管是正数还是负数,对于数值n, (n <<1) ^ (n >>31)这个表达式的结果一定是最便于进行压缩的,因为他的高位很大可能是0。abs(n)越小,结果中高位0的个数越多,越容易压缩
三:举例
用十进制-300来举例说明
原码:1000 0000 0000 0000 0000 0001 0010 1100
反码:1111 1111 1111 1111 1111 1110 1101 0011
补码:1111 1111 1111 1111 1111 1110 1101 0100
-
将补码符号位移到最后一位,其他位左移
补码:1111 1111 1111 1111 1111 1110 1101 0100
移动之后:111 1111 1111 1111 1111 1110 1101 01001 -
可以看到移动之后,因为负数补码本身就是原码上取反加工而成的,所以对数值比较小的二进制来说,高位大概率是1
所以可以除了最后一位符号位,其他位取反
before:111 1111 1111 1111 1111 1110 1101 01001
after: 000 0000 0000 0000 0000 0001 0010 10111 -
这样我们看到高位大部分是0,那么就可以进行Varints压缩了