mapreduce数据压缩

原创 2017年07月17日 19:27:35

概述
这是mapreduce的一种优化策略:通过压缩编码对mapper或者reducer的输出进行压缩,以减少磁盘IO,提高MR程序运行速度(但相应增加了cpu运算负担)
1、 Mapreduce支持将map输出的结果或者reduce输出的结果进行压缩,以减少网络IO或最终输出数据的体积
2、 压缩特性运用得当能提高性能,但运用不当也可能降低性能
3、 基本原则:
运算密集型的job,少用压缩
IO密集型的job,多用压缩

4.3.2 MR支持的压缩编码

4.3.3 Reducer输出压缩
在配置参数或在代码中都可以设置reduce的输出压缩
1、在配置参数中设置
mapreduce.output.fileoutputformat.compress=false
mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.DefaultCodec
mapreduce.output.fileoutputformat.compress.type=RECORD

2、在代码中设置
Job job = Job.getInstance(conf);
FileOutputFormat.setCompressOutput(job, true);
FileOutputFormat.setOutputCompressorClass(job, (Class

hadoop深入研究:(九)——mapreduce中的压缩

转载请注明出处:http://blog.csdn.net/lastsweetop/article/details/9187721作为输入 当压缩文件做为mapreduce的输入时,mapreduce将...
  • lastsweetop
  • lastsweetop
  • 2013-06-28 09:20:46
  • 13702

MR-4.MapReduce使用压缩

MapReduce处理数据时,需要考虑压缩格式是否支持分片是很重要的。考虑存储在HDFS重的未压缩文件,其大小为1GB。HDFS块大小为128M,该文件在HDFS存储分成8块存,作为MapReduce...
  • shenfuli
  • shenfuli
  • 2016-01-26 19:19:50
  • 1167

Hadoop MapReduce中的压缩

作为输入 当压缩文件作为MapReduce的输入时,MapReduce将自动通过扩展名找到相应的codec对其进行解压。 作为输出 当MapReduce的输出文件需要压缩时,可以更改mapred.ou...
  • lzm1340458776
  • lzm1340458776
  • 2015-01-13 11:09:59
  • 1085

mapreduce 压缩

Hadoop的常见压缩格式以及特性 为了支持多种压缩解压缩算法,Hadoop引入了编码/解码器。与Hadoop序列化框架类似,编码/解码器也是使用抽象工厂的设计模式。目前,Hadoop支持的编码/...
  • yonghutwo
  • yonghutwo
  • 2015-05-04 01:34:10
  • 718

Hadoop基准测试HiBench 学习笔记 - 1

一、准备工作 操作系统 centOS 64 位 JDK 1.7   maven  hadoop 2.6 github下载HiBench 4.0 运行 bin/build-all.sh编译 ...
  • hjh00
  • hjh00
  • 2015-12-11 11:32:50
  • 5838

hadoop深入研究:(九)——mapreduce中的压缩

转载请注明出处:http://blog.csdn.net/lastsweetop/article/details/9187721 作为输入 当压缩文件做为mapreduce的输入时,mapre...
  • wisgood
  • wisgood
  • 2013-12-31 15:21:45
  • 6055

mapreduce的reduce输出文件进行压缩

转:http://tydldd.iteye.com/blog/2053946   hadoop对每个压缩格式的支持,详细见下表:    压缩格式  工具  算法 ...
  • pzasdq
  • pzasdq
  • 2016-10-09 10:25:06
  • 817

hadoop mapreduce中压缩

3.2 压缩 一般来说,计算机处理的数据都存在一些冗余度,同时数据中间,尤其是相邻数据间存在着相关性,所以可以通过一些有别于原始编码的特殊编码方式来保存数据,使数据占用的存储空间比较小,这个过程一般...
  • wisgood
  • wisgood
  • 2013-11-07 14:39:56
  • 4468

基于CDH5集群配置snappy压缩

基于CDH5集群配置snappy压缩
  • kwu_ganymede
  • kwu_ganymede
  • 2015-11-04 15:36:29
  • 1421

mapreduce简单的gzip压缩

MapReduce使用简单的gzip格式进行文件的压缩 package example; import java.io.IOException; import org.apache.hado...
  • zwx19921215
  • zwx19921215
  • 2014-04-02 22:05:59
  • 2205
收藏助手
不良信息举报
您举报文章:mapreduce数据压缩
举报原因:
原因补充:

(最多只允许输入30个字)