shuffle阶段数据的压缩机制

最新推荐文章于 2023-09-01 11:27:07 发布

㎝㎜

最新推荐文章于 2023-09-01 11:27:07 发布

阅读量1.7w

点赞数

文章标签： hadoop

本文链接：https://blog.csdn.net/tian_1_2_3/article/details/110404370

版权

hadoop当中支持的压缩算法

压缩格式	工具	算法	文件扩展名	是否可切分
DEFLATE	无	DEFLATE	.deflate	否
Gzip	gzip	DEFLATE	.gz	否
bzip2	bzip2	bzip2	.bz2	是
LZO	lzop	LZO	.lzo	否
LZ4	无	LZ4	.lz4	否
Snappy	无	Snappy	.snappy	否

各种压缩算法对应使用的java类

压缩格式	对应使用的java类
DEFLATE	org.apache.hadoop.io.compress.DeFaultCodec
gzip	org.apache.hadoop.io.compress.GZipCodec
bzip2	org.apache.hadoop.io.compress.BZip2Codec
LZO	com.hadoop.compression.lzo.LzopCodec
LZ4	org.apache.hadoop.io.compress.Lz4Codec
Snappy	org.apache.hadoop.io.compress.SnappyCodec

常见的压缩速率比较

压缩算法	原始文件大小	压缩后的文件大小	压缩速度	解压缩速度
gzip	8.3GB	1.8GB	17.5MB/s	58MB/s
bzip2	8.3GB	1.1GB	2.4MB/s	9.5MB/s
LZO-bset	8.3GB	2GB	4MB/s	60.6MB/s
LZO	8.3GB	2.9GB	49.3MB/s	74.6MB/s

如何开启压缩：

方式一：在代码中进行设置压缩

设置map阶段的压缩：

      Configuration configuration = new Configuration();
      configuration.set("mapreduce.map.output.compress","true");
      configuration.set("mapreduce.map.output.compress.codec","org.apache.hadoop.io.compress.SnappyCodec");

设置reduce阶段的压缩：

     configuration.set("mapreduce.output.fileoutputformat.compress","true");
      configuration.set("mapreduce.output.fileoutputformat.compress.type","RECORD");
   configuration.set("mapreduce.output.fileoutputformat.compress.codec","org.apache.hadoop.io.compress.SnappyCodec");

方式二：配置全局的MapReduce压缩

修改mapred-site.xml配置文件，然后重启集群

map输出数据进行压缩：

<name>mapreduce.map.output.compress</name>

</property>

<name>mapreduce.map.output.compress.codec</name>

<value>org.apache.hadoop.io.compress.SnappyCodec</value>

</property>

reduce输出数据进行压缩

<name>mapreduce.output.fileoutputformat.compress</name>

</property>

<name>mapreduce.output.fileoutputformat.compress.type</name>

<value>RECORD</value>

</property>

<name>mapreduce.output.fileoutputformat.compress.codec</name>

<value>org.apache.hadoop.io.compress.SnappyCodec</value>

</property>

㎝㎜

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
shuffle阶段数据的压缩机制

hadoop当中支持的压缩算法压缩格式工具算法文件扩展名是否可切分 DEFLATE 无 DEFLATE .deflate 否 Gzip gzip DEFLATE .gz 否 bzip2 bzip2 bzip2 .bz2 是 LZO lzop LZO .lzo 否 LZ4 无 LZ4 .lz4 否 Snappy 无 Sn
复制链接

扫一扫