MapReduce压缩方式

MapReduce常用的压缩方式

压缩格式是否需要安装文件拓展名是否可分
DEFAULT.deflate
bzip2.bz2
Gzip.gz
LZO.lzo
Snappy.snappy

性能测试

压缩格式原文件大小压缩后大小压缩速度解压速度
gzip8.3G1.8G20M/s60M/s
LZO8.3G3G50M/s70M/s
Bzip28.3G1.1G3M/s10M/s
Snappy8.3G4G200M/s530M/s

总结,常用压缩方式的采用场景

  1. Bzip2 压缩方式(考虑空间成本时采用
    压缩率最高,压缩速度最低,hadoop自带,不支持split,所以输出文件不能超过blocksize。可以通过修改blocksize参数来调整储存压缩后文件。
  2. Gzip
    压缩率较高,压缩速度较快,hadoop自带,Linux自带gzip口令,但是不支持split
  3. LZO
    压缩率低,压缩速度快,Linux/Hadoop需要安装,支持split
  4. Snappy(考虑时间成本时采用,大部分企业采用该方式)
    压缩率低,压缩速度极快,Linux/Hadoop需要安装,不支持支持split
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值