大数据—Hadoop(十四)_ MapReduce_07、压缩

1、概述

1.1 好处

  • 以减少磁盘IO
    例如:在map阶段进行压缩后放入磁盘,则Reduce端拉取的内容就会变少,速度变快
  • 减少磁盘存储空间

1.2 坏处

  • 增加CPU开销
    压缩和解压缩都需要CPU进行计算

1.3 压缩方式选择主要看目前的任务类型

  • 运算密集型任务
    - 少用压缩

  • IO密集型任务
    - 多用压缩
    - 只压缩一两次后经常用于网络传输的任务

2、MR支持的压缩编码

压缩格式Hadoop自带?算法文件扩展名是否可切片换成压缩格式后,原来的程序是否需要修改
DEFLATEDEFLATE.deflate和文本处理一样,不需要修改
GzipDEFLATE.gz和文本处理一样,不需要修改
bzip2bzip2.bz2和文本处理一样,不需要修改
LZOLZO.lzo需要建索引,还需要指定输入格式
SnappySnappy.snappy和文本处理一样,不需要修改

解读1:是否是Hadoop自带
3.X后自带snappy,不需要额外安装

解读2:是否可切片
如果不支持切片,只能给一个MapTask处理
所以数据庞大,重点考虑bzip2和LZO

3、压缩算法比较

压缩算法原始文件大小压缩文件大小压缩速度解压速度
gzip8.3GB1.8GB17.5MB/s58MB/s
bzip28.3GB1.1GB2.4MB/s9.5MB/s
LZO8.3GB2.9GB49.3MB/s74.6MB/s
Snappy8.3GB未知250MB/s500MB/s

4、压缩方式选择

4.1 主要考虑三点

  • 压缩和解压缩的速度
  • 压缩率
  • 压缩后是否支持切片

4.2 各种压缩方式优缺点

压缩方式优点缺点
Gzip压缩率比较高不支持Split;压缩/解压速度一般
Bzip2压缩率高;支持Split压缩/解压速度慢
LZO压缩/解压速度比较快;支持Split压缩率一般;想支持切片需要额外创建索引
Snappy压缩和解压缩速度快不支持Split;压缩率一般

4.3 压缩位置选择

位置重点考虑
Map输入a、是否自带 b、是否大于块大小(大:支持切片——LZO、Bzip2;小:速度快——LZO、Snappy)
Map输出速度快——LZO、Snappy
Reduce输出a、永久保存(压缩率——Bzip2、Gzip)b、如果作为下一个Map的输入,则考虑上方Map输入的问题(是否自带、大小、切片)

5、压缩参数配置

5.1 算法

压缩格式对应的编码/解码器(类的全类名)
DEFLATEorg.apache.hadoop.io.compress.DefaultCodec
gziporg.apache.hadoop.io.compress.GzipCodec
bzip2org.apache.hadoop.io.compress.BZip2Codec
LZOcom.hadoop.compression.lzo.LzopCodec
Snappyorg.apache.hadoop.io.compress.SnappyCodec

5.2 启动压缩配置方式

位置对应的编码/解码器(类的全类名)默认值和配置方式
Map输入io.compression.codecs(在core-site.xml中配置)默认为空,如果后续需要添加非Hadoop自带的压缩方式,才需要配置(例如:LZO)
Map输出mapreduce.map.output.compress(在mapred-site.xml中配置)默认false,开启压缩需要设置成true
Map输出mapreduce.map.output.compress.codec(在mapred-site.xml中配置)默认org.apache.hadoop.io.compress.DefaultCodec,如果需要设置成LZO或者是Snappy编解码器,需要在此设置
reducer输出mapreduce.output.fileoutputformat.compress(在mapred-site.xml中配置)默认false,开启压缩需要设置成true
reducer输出mapreduce.output.fileoutputformat.compress.codec(在mapred-site.xml中配置)默认org.apache.hadoop.io.compress.DefaultCodec,如果需要设置成gzip或者是bzip2编解码器,需要在此设置

6、压缩实操案例

6.1 Map输出端采用压缩

// 开启map端输出压缩
conf.setBoolean("mapreduce.map.output.compress", true);

// 设置map端输出压缩方式
conf.setClass("mapreduce.map.output.compress.codec", BZip2Codec.class,CompressionCodec.class);

如果只配置了Map输出端,只会影响任务速度,不会影响最终输出文件格式

如果改成Snappy压缩方式,在window环境测试,会报本地Snappy不存在,或者版本不支持。因为Snappy需要运行在centos7.0以上的系统和hadoop3.X版本

java.lang.RuntimeException: native snappy library not available: this version of libhadoop was built without snappy support. 

6.2 Reduce输出端采用压缩

// 设置reduce端输出压缩开启
FileOutputFormat.setCompressOutput(job, true);

// 设置压缩的方式
FileOutputFormat.setOutputCompressorClass(job, BZip2Codec.class); 
//FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class); 
//FileOutputFormat.setOutputCompressorClass(job, DefaultCodec.class); 

会影响最终输出文件,文件后缀分别是.bz2、.gz、.deflate

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大数据之负

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值