Mapreduce过程中对hdfs文件压缩的使用

最新推荐文章于 2023-05-09 20:38:18 发布

风筝Lee

最新推荐文章于 2023-05-09 20:38:18 发布

阅读量358

点赞数

分类专栏： hadoop

本文链接：https://blog.csdn.net/breakout_alex/article/details/101213071

版权

hadoop 专栏收录该内容

20 篇文章 1 订阅

订阅专栏

本文主要介绍mapreduce过程中对hdfs文件压缩的使用。

mapreduce过程中的hdfs文件压缩：

å¨è¿éæå¥å¾çæè¿°

A.第一次传入压缩文件，应选用可以切片的压缩方式，否则整个文件将只有一个Map执行。Use Compressd Map Input:从HDFS中读取文件进行Mapreuce作业，如果数据很大，可以使用压缩并且选择支持分片的压缩方式（Bzip2,LZO），可以实现并行处理，提高效率，减少磁盘读取时间，同时选择合适的存储格式例如SequenceFiles，RC,ORC等。

B.第二次压缩应选择压缩解压速度快的压缩方式，生产中，Map阶段数据落盘通常使用snappy压缩格式（快速压缩解压）。Compress Intermediate
Data:Map输出作为Reducer的输入，需要经过shuffle这一过程，需要把数据读取到一个环形缓冲区，然后读取到本地磁盘，所以选择压缩可以减少了存储文件所占空间，提升了数据传输速率，建议使用压缩速度快的压缩方式，例如Snappy和LZO。

C.第三次压缩有两种场景分别是：一.当输出文件为下一个job的输入，选择可切分的压缩方式例如：BZip2。二.当输出文件直接存到HDFS，作为归档，选择压缩比高的压缩方式。reduce阶段数据落盘通常使用gzip或bzip2进行压缩（减少磁盘使用）。Compress Reducer Output:进行归档处理或者链接Mapreduce的工作（该作业的输出作为下个作业的输入），压缩可以减少了存储文件所占空间，提升了数据传输速率，如果作为归档处理，可以采用高的压缩比（Gzip,Bzip2），如果作为下个作业的输入，考虑是否要分片进行选择。

总结：

综上所述，mapreduce每个阶段根据不同的特点采用不同的压缩方式，合理利用hdfs文件压缩技术，达到提高运行效率或者减少存储的目的。

风筝Lee

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Mapreduce过程中对hdfs文件压缩的使用

本文主要介绍mapreduce过程中对hdfs文件压缩的使用。mapreduce过程中的hdfs文件压缩：A.第一次传入压缩文件，应选用可以切片的压缩方式，否则整个文件将只有一个Map执行。Use Compressd Map Input:从HDFS中读取文件进行Mapreuce作业，如果数据很大，可以使用压缩并且选择支持分片的压缩方式（Bzip2,LZO），可以实现并行处理，提高...
复制链接

扫一扫