数据压缩算法之zigZag--一种对负数友好的编码（2000多字总结）

最新推荐文章于 2022-12-14 23:22:39 发布

安勿期

最新推荐文章于 2022-12-14 23:22:39 发布

阅读量1.5k

点赞数

分类专栏：数据结构

本文链接：https://blog.csdn.net/javadocdoc/article/details/118944169

版权

数据结构专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文章目录

一：zigzag压缩算法出现的必要性
二：步骤
三：举例

涉及到原码和补码的知识点，可参考：
原码，反码，补码之详解

一：zigzag压缩算法出现的必要性

一般我们用到的整数都是比较小的，这类的整数转换成二进制之后，高位绝大部分是0，就比如整数1 ，二进制为0000 0001。那么很多的压缩算法就是利用高位无效0值来实现压缩的。例如Varints
但是这种压缩算法往往对负数很不友好，因为负数的高位是1，1在二进制中是有意义的存储，所以不能省略进行压缩
所以就有了zigZag压缩算法，一种对负数友好的压缩算法

二：步骤

zigZag压缩算法简单的来说，就是在二进制补码中将符号位移到最后一位，其他位左移；除了最后一位符号位，其他位取反然后进行压缩
分步骤详解：

补码将符号位移到最后一位。对于位运算相当于n>>31。
- 如果是正数的话，移动之后为0000 0000 0000 0000 0000 0000 0000 0000。因为对于符号位，0表示正数，所以最后一位是0，正数的右移位运算时左边空出的高位补0
- 如果是负数的话，移动之后为1111 1111 1111 1111 1111 1111 1111 1111。因为对于符号位，1表示的是负数，所以最后一位是1，负数的右移位运算是左边空出的高位补1
数值位左移1位。相当于是n<<1
不管是正数还是负数，左移1位之后右边的空位都补0。
- 对于数值较小的正数来说，补码=反码=原码。那么高位大部分都是便于压缩的0，类似于000… xxxx
- 对于绝对值较小的负数来说，补码的高位大部分都是1，类似于111…xxx
所以如果我们对1和2的结果做^操作的话，就会有
- 对于正数：(0000 0000 0000 0000 0000 0000 0000 0000)^(000… xxxx)=000… xxxx
- 对于负数：(1111 1111 1111 1111 1111 1111 1111 1111)^(111…xxx)=000… yyyy
所以不管是正数还是负数，对于数值n， (n <<1) ^ (n >>31)这个表达式的结果一定是最便于进行压缩的，因为他的高位很大可能是0。abs(n)越小，结果中高位0的个数越多，越容易压缩

三：举例

用十进制-300来举例说明
原码：1000 0000 0000 0000 0000 0001 0010 1100
反码：1111 1111 1111 1111 1111 1110 1101 0011
补码：1111 1111 1111 1111 1111 1110 1101 0100

将补码符号位移到最后一位，其他位左移
补码：1111 1111 1111 1111 1111 1110 1101 0100
移动之后：111 1111 1111 1111 1111 1110 1101 01001
可以看到移动之后，因为负数补码本身就是原码上取反加工而成的，所以对数值比较小的二进制来说，高位大概率是1
所以可以除了最后一位符号位，其他位取反
before：111 1111 1111 1111 1111 1110 1101 01001
after： 000 0000 0000 0000 0000 0001 0010 10111
这样我们看到高位大部分是0，那么就可以进行Varints压缩了

安勿期

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
数据压缩算法之zigZag--一种对负数友好的编码（2000多字总结）

1，按照绝对值升序排列，将整数hash成递增的32位bit流，hash函数：h(n) = (n << 1) ^ (n >> 31）。对应地long类型（64位）的hash函数为(n << 1) ^ (n >> 63)符号解释： << 左移 >>右移 ^按位异或2，核心：编码：有符号整数映射到无符号整数之后使用varints进行加密解码：使用varints解密之后，转换为有符号整数...
复制链接

扫一扫