MR-4.MapReduce使用压缩

最新推荐文章于 2024-03-21 16:17:43 发布

艾文教编程

最新推荐文章于 2024-03-21 16:17:43 发布

阅读量2.3k

点赞数

分类专栏：分布式数据存储技术文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shenfuli/article/details/50589374

版权

分布式数据存储技术专栏收录该内容

75 篇文章 0 订阅

订阅专栏

MapReduce处理数据时，需要考虑压缩格式是否支持分片是很重要的。考虑存储在HDFS重的未压缩文件，其大小为1GB。HDFS块大小为128M，该文件在HDFS存储分成8块存，作为MapReduce输入将创建8个分片（split，也称为“分块”）。每个分片都被作为一个独立的MapTask的输入单独进行处理。

假设，一个压缩后1GB的gzip格式的文件。HDFS块大小为128M，在HDFS存储8个分块。然而针对每一block创建一个分片是没有用的，因为不能从gzip格式数据流中的任意一点开始读取。因此gzip格式不支持分片（分割）。

对于格式为gzip格式的1GB的文件，随被分成8块存储，但是MapReduce对gzip格式文件不分片，也就是说8块存储的数据通过一个MapTask处理，大都不是map的本地数据。因为MapTask少，从而导致运行时间变长。

对于gzip2格式压缩1GB文件，因为它支持分片，故可以多个MapTask处理，性能较高。

思考问题：实际项目应用中应该使用哪种压缩格式呢？

考虑Hadoop应用处理的数据集比较大，因此需要借助压缩。按照效率从高到低排列的

（1）使用容器格式文件，例如：顺序文件、RCFile、Avro数据格式支持压缩和切分文件。另外在配合使用一些快速压缩工具，例如：LZO、LZ4或者Snappy.

（2）使用支持切分压缩格式，例如gzip2

（3）在应用中将文件切分成块，对每块进行任意格式压缩。这种情况确保压缩后的数据库接近HDFS块大小。

（4）存储未压缩文件，以原始文件存储。

总之，对于大文件来说，不要使用不支持切分整个文件的压缩格式，因为失去数据本地特性，进而造成MapReduce应用效率低下。

编写MapReduce程序时候，有时候需要在程序中对map任务的输出结果或者MapReduce作业进行压缩。

（1）对map任务输出进行压缩

由于map任务的输出需要写到磁盘并通过网络传输到reducer节点，所以如果使用LZO、LZ4或者Snappy这样的快速压缩方式和，是可以提升性能的。启用map任务中间节点的方法：

// 对map任务输出进行压缩

conf.setBoolean("mapreduce.map.output.compress.codec", true);

conf.setClass("mapreduce.map.output.compress", GzipCodec.class, CompressionCodec.class);

（2）Map作业中使用压缩

// 对作业输出结果进行压缩

FileOutputFormat.setCompressOutput(job, true);

FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);

如果输出生成顺序文件（sequence file），可以通过以下设置来完成

job.setOutputFormatClass(SequenceFileOutputFormat.class);

SequenceFileOutputFormat.setCompressOutput(job, true);

SequenceFileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);

SequenceFileOutputFormat.setOutputCompressionType(job, CompressionType.BLOCK);

注意：默认情况下是RECORD，即针对每条记录进行压缩。如果改成BLOCK，将针对一组记录进行压缩。这也是推荐的压缩策略，因此它的压缩效率更高。

艾文教编程

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

艾文教编程 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。