Hadoop压缩存储方案对比

  1. 三点评价标准

    1.1. CPU处理能力/处理量
    1.2. I/O处理能力
    1.3. 网络传输能力

  2. 如果数据已经以压缩的格式存储,则不需要再压缩,如jpeg。

  3. 存储格式对比:

    存储格式优点缺点是否可切分建议用途备注
    GZIP压缩率高CPU使用率高,压缩慢×冷数据
    BZIP2压缩率高,部分文件格式甚至比GZIP高CPU使用率高,压缩慢,HBase不支持冷数据
    LZO压缩快压缩率低,原生不支持,需要额外安装热数据因为使用GPL协议,所以一般不自带。有条件地可拆分。
    LZ4压缩快,解压速度比LZO更快压缩率比LZO略低×热数据
    Snappy压缩快,普遍比LZO更快,原生支持压缩率低×热数据Snappy文件块不可拆分,但是在container file format里面的Snappy块是可以拆分的,例如Avro和SequenceFile。Snappy一般也需要和一个container file format一起使用。
  4. MapReduce中可以单独指定mapper和reducer分别使用何种形式的压缩。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值