hadoop6-常见压缩算法

常见的数据压缩算法

Deflate

gzip

bzip2

LZO

LZ4

Snappy

LZO和LZ4算法已经不再hadoop1.x

1)DEFLATW是同时使用LZ77算法和哈夫曼编码的一个无损数据压缩算法,源代码可以在zlib库中找到

gzip是以DEFLATW算法为基础扩展出来的一种算法

2)压缩算法都是空间和时间的转换,更快的压缩时间还是更小的压缩比,可以通过参数来制定

-1意味着速度,-9意味着空间。拿gzip来做个例子,下面就意味着更快速的压缩。

gzip -1 file

3)gzip在时间和空间上比较适中,bzip2压缩比gzip更有效,但速度更慢。

bzip2的压缩速度比它的压缩速度更快,但是和其他压缩格式相比又是最慢的,单

是压缩效果明显是组号的。snappy和LZ4d的压缩速度比LZ0好很多

4)splittable表示的是压缩格式是否可以被分割,也是就是否支持随机读。阿索数据是否被mapreduce使用,

压缩数据是否能被分割就很关键了。

存放压缩算法

/home/hadoop-1.2.1/src/core/org/apache/hadoop/io/compress


如何使用Snappy & Zlib

下载http://code.google.com/p/snappy/downloads/list


配置:

1)hadoop.native.lib参数

2)设置LD_LIBRAEY_PATH环境变量或者java.library.path属性

这两个路径必须包含hadoop

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值