MapReduce shuffle阶段数据的压缩机制

最新推荐文章于 2023-04-02 16:53:55 发布

WSX_ton

最新推荐文章于 2023-04-02 16:53:55 发布

阅读量324

点赞数 1

分类专栏： MapReduce 文章标签： MapReduce 压缩

本文链接：https://blog.csdn.net/WSX_ton/article/details/103132014

版权

MapReduce shuffle阶段数据的压缩机制

介绍
hadoop当中支持的压缩算法

介绍

在shuffle阶段，可以看到数据通过大量的拷贝，从map阶段输出的数据，都要通过网络拷贝，发送到reduce阶段，这一过程中，涉及到大量的网络IO，如果数据能够进行压缩，那么数据的发送量就会少得多，那么如何配置hadoop的文件压缩呢，以及hadoop当中的文件压缩支持哪些压缩算法呢？？接下来一一细看

MapReduce的执行流程
为什么要配置压缩：
MapReduce
input
mapper
shuffle
partitioner、sort、combiner、【compress】、group
reducer
output

hadoop当中支持的压缩算法

文件压缩有两大好处，节约磁盘空间，加速数据在网络和磁盘上的传输
前面hadoop的版本经过重新编译之后，可以看到hadoop已经支持所有的压缩格式了，剩下的问题就是该如何选择使用这些压缩格式来对MapReduce程序进行压缩
可以使用bin/hadoop checknative 来查看编译之后的hadoop支持的各种压缩，如果出现openssl为false，那么就在线安装一下依赖包
bin/hadoop checknative
yum install openssl-devel 在这里插入图片描述

hadoop支持的压缩算法

压缩格式	工具	算法	文件扩展名	是否可切分
DEFLATE	无	DEFLATE	.deflate	否
Gzip	gzip	DEFLATE	.gz	否
bzip2	bzip2	bzip2	bz2	是
LZO	lzop	LZO	.lzo	否
LZ4	无	LZ4	.lz4	否
Snappy	无	Snappy	.snappy	否

各种压缩算法对应使用的java类

压缩格式	对应使用的java类
DEFLATE	org.apache.hadoop.io.compress.DeFaultCodec
gzip	org.apache.hadoop.io.compress.GZipCodec
bzip2	org.apache.hadoop.io.compress.BZip2Codec
LZO	com.hadoop.compression.lzo.LzopCodec
LZ4	org.apache.hadoop.io.compress.Lz4Codec
Snappy	org.apache.hadoop.io.compress.SnappyCodec

常见的压缩速率比较

压缩算法	原始文件大小	压缩后的文件大小	压缩速度	解压缩速度
gzip	8.3GB	1.8GB	17.5MB/s	58MB/s
bzip2	8.3GB	1.1GB	2.4MB/s	9.5MB/s
LZO-bset	8.3GB	2GB	4MB/s	60.6MB/s
LZO	8.3GB	2.9GB

最低0.47元/天解锁文章

WSX_ton

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce shuffle阶段数据的压缩机制

MapReduce shuffle阶段数据的压缩机制介绍hadoop当中支持的压缩算法hadoop支持的压缩算法各种压缩算法对应使用的java类常见的压缩速率比较1、如何开启压缩：2、使用hadoop的snappy压缩来对数据进行压缩第一步：代码中添加配置第二步：重新打包测试mr程序介绍在shuffle阶段，可以看到数据通过大量的拷贝，从map阶段输出的数据，都要通过网络拷贝，发送到redu...
复制链接

扫一扫