Hadoop的一个变长long编码剖析

最新推荐文章于 2021-12-22 08:25:11 发布

PunWinger

最新推荐文章于 2021-12-22 08:25:11 发布

阅读量1k

点赞数

分类专栏： Hadoop Java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Pun_C/article/details/46495623

版权

本文介绍了Hadoop中针对long和int的zero-compressed encoded变长编码方式，该方法能有效压缩冗余数据。当数值在-112到127之间时，仅用1字节表示。超出该范围时，第一个字节表示数值的总字节数，结合后续字节表示数值。对于正负数，通过第一个字节的特定范围分别表示1-8个字节。文章还探讨了为何需要通过第一个字节的符号区分正负，以及取反操作在编码中的优势。

摘要由CSDN通过智能技术生成

Hadoop对于long、int （化成long进行编码）的编码设计了自己的一套编码方式，这是一个zero-compressed encoded的变长编码方式，有利于大大压缩冗余数据。具体算法其实很简单，具体来说有如下几点：

1、对于-112 <= i <= 127的整数，只用1个字节byte来表示；如果超过上述范围时，编码第一个字节则会用来表示i的总字节数，后面则跟着 i 的字节；

2、如果i大于0，则编码的第一个字节 b 范围在-113和-120之间，则 i 会有 (-112 - b)个字节，所以可以表示有1-8个字节；

3、如果i小于0，则编码第一个字节 b 范围在 -121 和 -128之间，则 i 会有 (-120 - b)个字节，同样也可以表示有1-8个字节。（Hadoop的实现里，当i为负数被编码的是 i 补码）。

算法看上去比较容易理解，具体要点就是利用第一个字节表示 i 的长度，以及 i 的符号，不过其实，如果深入源码后，发现Hadoop的实现有点小巧妙的

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。