shuffle阶段数据的压缩机制

最新推荐文章于 2023-04-02 16:53:55 发布

小埋璐璐

最新推荐文章于 2023-04-02 16:53:55 发布

阅读量299

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/Malu_/article/details/103131654

版权

本文详细介绍了Hadoop Shuffle阶段的数据压缩机制，包括如何开启压缩、配置MapReduce压缩以及使用Snappy压缩。通过压缩，可以减少网络IO，提高数据传输效率。文章列举了Hadoop支持的压缩算法，并提供了在代码中和全局配置文件中启用压缩的方法。

摘要由CSDN通过智能技术生成

shuffle阶段数据的压缩机制

在shuffle阶段，可以看到数据通过大量的拷贝，从map阶段输出的数据，都要通过网络拷贝，发送到reduce阶段，这一过程中，涉及到大量的网络IO，如果数据能够进行压缩，那么数据的发送量就会少得多，那么如何配置hadoop的文件压缩呢，以及hadoop当中的文件压缩支持哪些压缩算法呢？？接下来一一细看

MapReduce的执行流程
为什么要配置压缩：
MapReduce
input
mapper
shuffle
partitioner、sort、combiner、【compress】、group
reducer
output

1、hadoop当中支持的压缩算法
文件压缩有两大好处，节约磁盘空间，加速数据在网络和磁盘上的传输
前面hadoop的版本经过重新编译之后，可以看到hadoop已经支持所有的压缩格式了，剩下的问题就是该如何选择使用这些压缩格式来对MapReduce程序进行压缩
可以使用bin/hadoop checknative 来查看编译之后的hadoop支持的各种压缩，如果出现openssl为false，那么就在线安装一下依赖包
bin/hadoop checknative
yum install openssl-devel

在这里插入图片描述
hadoop支持的压缩算法