压缩概述
压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在运行MR程序时,IO操作,网络数据传输,shuffle和merge都要花费大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此使用数据压缩显的非常重要。
鉴于磁盘IO和网络带宽是hadoop的宝贵资源,**数据压缩对于节省资源,最小化磁盘IO和网络传输非常有帮助。可以在任意MapReduce阶段启用压缩。**不过,尽管压缩与解压操作的CPU开销不高,其性能的提升和资源的节省并非没有代价。
压缩策略和原则
压缩是提高Hadoop运行效率的一种优化策略。
通过对Mapper,Reduce运行过程的数据进行压缩,以减少磁盘IO,提高MR程序裕兴速度。
注意:采用压缩技术减少了磁盘IO,但同时增加了CPU运算负担。所以,压缩特性运用得当能提高性能,但运用不当也可能降低性能。
压缩基本原则
- 运算密集型的job,少用压缩
- IO密集型的job,多用压缩
MR支持的压缩编码
压缩格式 | 是否hadoop自带 | 算法 | 文件扩展名 | 是否可切分 | 换成压缩格式后,原程序是否需要修改 |
---|---|---|---|---|---|
DEFLATE | 是,直接使用 | DEFLATE | .deflate | 否 | 和文本处理一样,不需要修改 |
Gzip | 是,直接使用 | DEFLATE | .gz | 否 | 和文本处理一样,不需要 |
bzip2 | 是,直接使用 | bzip2 | .bz2 | 是 | 和文本处理一样,不需要修改 |
LZO | 否,需要安装 | LZO | .lzo | 是 | 需要建索引,还需要指定输出格式 |
Snappy | 否,需要安装 | Snappy | .snappy | 否 | 和文本修改一样,不需要修改 |
为了支持多种压缩或者解压算法,Hadoop引入了编码/解码器,如下图:
压缩格式 | 对应的编码/解码器 |
---|---|
DEFLATE | org.apache.hadoop.io.compress.DefaultCodec |
gzip | org.apache.hadoop.io.compress.GzipCodec |
bzip2 | org.apache.hadoop.io.compress.BZip2Codec |
LZO | com.hadoop.compression.lzo.LzopCodec |
Snappy | org.apache.hadoop.io.compress.SnappyCodec |
压缩性能比较:
压缩速度:Snappy>LZO>gzip>bzip2
解压速度:Snappy》LZO>gzip>bzip2
比较图:
压缩算法 | 原始文件大小 | 压缩文件大小 | 压缩速度 | 解压速度 |
---|---|---|---|---|
gzip | 8.3G | 1.8G | 17.5M/s | 58M/s |
bzip2 | 8.3G | 1.1G | 2.4M/s | 9.5M/s |
LZO | 8.3G | 2.9G | 49.3M/s | 74.6M/s |
Snappy的 压缩,解压分别能达到250M/s和500M/s,但是压缩效率不是很高
压缩方式的选择
- Gzip
优点:压缩率比较高,而且压缩、解压速度也比较快;hadoop本身支持,在应用处理Gzip格式的文件就和直接处理文本一样;大部分;linux都自带了Gzip,使用方便
缺点:不支持split
应用场景:当每个文件压缩之后再130M以内(单块大小),都可以考虑Gzip压缩。 - Bzip2
优点:支持Split,居于很高的压缩率,比Gzip的压缩率高,hadoop本身自带,使用方便
缺点:压缩/解压速度慢
应用场景:适合对速度要求不高,但需要较高的压缩率的时候,或者输出之后的数据比较大,处理之后的数据需要压缩存档减少磁盘空间并且以后数据用得少的情况;或者对单个很大的文本文件想压缩减少存储空间,同时又需要支持Splite,而且兼容之前的应用程序的情况 - LZO压缩
优点:压缩/解压速度也比较快,合理的压缩率;支持Split,是Hadoop中最流行的压缩格式;可以在Linux系统下安装LZOP命令,使用方便。
缺点:压缩率比Gzip要低一些;hadoop本身不支持,需要安装,在应用中对Lzo的文件需要做一些特殊处理(为了支持Split需要做索引,还需要指定InputFormat的Lzo格式)
应用场景:一个很大的文件,压缩之后还大于200M以上的可以考虑,而且单个文件越大,Lzo优点越明显。 - Snappy
优点:高速的压缩速度和解压速度
缺点:不支持Split以及比Gzip还要低的压缩率,hadoop本身不支持,需要安装。
应用场景:当Mapreduce作业的Map输出的数据比较大的时候,作为Map和Reduce的中间数据的压缩格式;或者作为一个Mapreduce作业的输出和另外一个作业的输入。
压缩位置的选择
压缩可以在Mapreduce作用的任意阶段启用。在map的输入,我们不需要设置压缩,因为hadoop会自动根据文件后缀判断是否是压缩文件以及自动匹配到压缩编解码器。
压缩参数配置:
io.compression.codecs 默认是空,如果你想使用snappy压缩等非hadoop自带的压缩格式。需要在core-site.xml追加相应的类名
reduce输出SequenceFile类型的mapreduce.output.fileoutputformat.compress.type的值有三种,RECORD,NONE,BLOCK,分别是按行压缩,无,按块压缩。效率好的是按块压缩
参数 | 默认值 | 阶段 | 建议 |
---|---|---|---|
io.compression.codecs (在core-site.xml中配置) | org.apache.hadoop.io.compress.DefaultCodec, org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.BZip2Codec | 输入压缩 | Hadoop使用文件扩展名判断是否支持某种编解码器 |
mapreduce.map.output.compress(在mapred-site.xml中配置) | false | mapper输出 | 这个参数设为true启用压缩 |
mapreduce.map.output.compress.codec(在mapred-site.xml中配置) | org.apache.hadoop.io.compress.DefaultCodec | mapper输出 | 企业多使用LZO或Snappy编解码器在此阶段压缩数据 |
mapreduce.output.fileoutputformat.compress(在mapred-site.xml中配置) | false | reducer输出 | 这个参数设为true启用压缩 |
mapreduce.output.fileoutputformat.compress.codes(在mapred-site.xml中配置)(在mapred-site.xml中配置) | org.apache.hadoop.io.compress.DefaultCodec | reducer输出 | 使用标准工具或者编解码器,如gzip和bzip2 |
mapreduce.output.fileoutputformat.compress.type(在mapred-site.xml中配置)(在mapred-site.xml中配置) | RECORD | reducer输出 | SequenceFile输出使用的压缩类型:NONE和BLOCK和RECORD |
压缩操作实例
压缩示例
示例文件:
代码:
package com.xing.MapReduce.CompressDemo;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.compress.CompressionCodec;
import org.apache.hadoop.io.compress.CompressionCodecFactory;
import org.apache.hadoop.io.compress.CompressionInputStream;
import org.apache.hadoop.io.compress.CompressionOutputStream;
import org.apache.hadoop.util.ReflectionUtils;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
public class CompressDriver {
public static void main(String[] args) {
System.setProperty("hadoop.home.dir", "E:\\hadoop-2.7.1");
try {
// 压缩
compress("E:\\hdfs\\data\\compress\\input\\name.txt","org.apache.hadoop.io.compress.BZip2Codec");
// 解压缩
decompress("E:\\hdfs\\data\\compress\\input\\name.txt.bz2");
} catch (IOException e) {
e.printStackTrace();
} catch (ClassNotFoundException e) {
e.printStackTrace();
}
}
/**
* 解压
* @param fileName
* @throws IOException
* @throws ClassNotFoundException
*/
private static void decompress(String fileName) throws IOException, ClassNotFoundException {
// 获取编码器工厂
CompressionCodecFactory compressionCodecFactory = new CompressionCodecFactory(new Configuration());
// 根据文件获取解码器
CompressionCodec codec = compressionCodecFactory.getCodec(new Path(fileName));
if (codec == null){
System.out.println("not support");
return;
}
// 获取解压缩文件流
CompressionInputStream inputStream1 = codec.createInputStream(new FileInputStream(fileName));
// 获取文件输出流
FileOutputStream outputStream1 = new FileOutputStream(fileName + ".nb");
// 流的对拷
IOUtils.copyBytes(inputStream1, outputStream1, 1024, false);
// 关闭流
IOUtils.closeStream(outputStream1);
IOUtils.closeStream(inputStream1);
}
/**
* 压缩方法
* @param fileName
* @param type
* @throws IOException
* @throws ClassNotFoundException
*/
private static void compress(String fileName, String type ) throws IOException, ClassNotFoundException {
// 获取文件流
FileInputStream inputStream = new FileInputStream(fileName);
// 获取压缩类的class
Class codeClass = Class.forName(type);
// 获取压缩类
CompressionCodec codec = (CompressionCodec)ReflectionUtils.newInstance(codeClass, new Configuration());
// 获取文件输出流
FileOutputStream outputStream = new FileOutputStream(fileName+codec.getDefaultExtension());
// 创建压缩输出流
CompressionOutputStream codecOutputStream = codec.createOutputStream(outputStream);
// 流的对拷
IOUtils.copyBytes(inputStream,codecOutputStream , 4096,false);
// 关闭流 由内到外
IOUtils.closeStream(codecOutputStream);
IOUtils.closeStream(outputStream);
IOUtils.closeStream(inputStream);
}
}
结果:
基于单词分割案例添加压缩
Map输出中间结果压缩
WordCountDriver:
// 设置中间压缩方式
configuration.setBoolean("mapreduce.map.output.compress", true);
configuration.setClass("mapreduce.map.output.compress.codec", BZip2Codec.class, CompressionCodec.class);
package com.xing.MapReduce.WordCount;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.compress.BZip2Codec;
import org.apache.hadoop.io.compress.CompressionCodec;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.CombineTextInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.KeyValueLineRecordReader;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;
/**
* 统计单词的Driver类
*/
public class WordCountDriver {
public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
// 获取job对象
System.setProperty("hadoop.home.dir", "E:\\hadoop-2.7.1");
Configuration configuration = new Configuration();
configuration.set(KeyValueLineRecordReader.KEY_VALUE_SEPERATOR, "\t");
// 设置中间压缩方式
configuration.setBoolean("mapreduce.map.output.compress", true);
configuration.setClass("mapreduce.map.output.compress.codec", BZip2Codec.class, CompressionCodec.class);
FileSystem fs = FileSystem.get(configuration);
//configuration.set("mapreduce.framework.name","local");
//configuration.set("fs.defaultFS","file:///");
Job job = Job.getInstance(configuration);
// 设置加载类
job.setJarByClass(WordCountDriver.class);
// 设置map和reduce类
job.setMapperClass(WordCountMapper.class);
job.setReducerClass(WordCountReduce.class);
// 设置CombineTextInputFormat
job.setInputFormatClass(CombineTextInputFormat.class);
CombineTextInputFormat.setMaxInputSplitSize(job,10*1024); //单位是b 字节
// 设置mapper输出类型
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class);
// 设置最终输出类型
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
// 设置输入文件和输出文件
FileInputFormat.setInputPaths(job,new Path("E:\\hdfs\\input\\"));
Path outPath = new Path("E:\\hdfs\\output");
if (fs.exists(outPath)) {
fs.delete(outPath, true);
}
// 数据输出路径
FileOutputFormat.setOutputPath(job, new Path("E:\\hdfs\\output"));
boolean waitForCompletion = job.waitForCompletion(true);
System.out.println(waitForCompletion);
System.exit(waitForCompletion?0:1);
// 命令执行MR
// hadoop jar 目标jar包 目标类 输入路径 输出路径
// hadoop jar **.jar com.xing.MapReduce.WordCount.WordCountDriver 输入路径 输出路径
}
}
Reduce输出结果压缩
// 添加reduce输出压缩
FileOutputFormat.setCompressOutput(job,true );
FileOutputFormat.setOutputCompressorClass(job,BZip2Codec.class );
package com.xing.MapReduce.WordCount;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.compress.BZip2Codec;
import org.apache.hadoop.io.compress.CompressionCodec;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.CombineTextInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.KeyValueLineRecordReader;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;
/**
* 统计单词的Driver类
*/
public class WordCountDriver {
public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
// 获取job对象
System.setProperty("hadoop.home.dir", "E:\\hadoop-2.7.1");
Configuration configuration = new Configuration();
configuration.set(KeyValueLineRecordReader.KEY_VALUE_SEPERATOR, "\t");
/*// 设置中间压缩方式
configuration.setBoolean("mapreduce.map.output.compress", true);
configuration.setClass("mapreduce.map.output.compress.codec", BZip2Codec.class, CompressionCodec.class);*/
FileSystem fs = FileSystem.get(configuration);
Job job = Job.getInstance(configuration);
// 设置加载类
job.setJarByClass(WordCountDriver.class);
// 设置map和reduce类
job.setMapperClass(WordCountMapper.class);
job.setReducerClass(WordCountReduce.class);
// 设置CombineTextInputFormat
job.setInputFormatClass(CombineTextInputFormat.class);
CombineTextInputFormat.setMaxInputSplitSize(job,10*1024); //单位是b 字节
// 设置mapper输出类型
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class);
// 设置最终输出类型
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
// 设置输入文件和输出文件
FileInputFormat.setInputPaths(job,new Path("E:\\hdfs\\input\\"));
Path outPath = new Path("E:\\hdfs\\output");
if (fs.exists(outPath)) {
fs.delete(outPath, true);
}
// 数据输出路径
FileOutputFormat.setOutputPath(job, new Path("E:\\hdfs\\output"));
// 添加reduce输出压缩
FileOutputFormat.setCompressOutput(job,true );
FileOutputFormat.setOutputCompressorClass(job,BZip2Codec.class );
boolean waitForCompletion = job.waitForCompletion(true);
System.out.println(waitForCompletion);
System.exit(waitForCompletion?0:1);
// 命令执行MR
// hadoop jar 目标jar包 目标类 输入路径 输出路径
// hadoop jar **.jar com.xing.MapReduce.WordCount.WordCountDriver 输入路径 输出路径
}
}
输出结果: