mapreduce数据压缩

原创 2017年07月17日 19:27:35

概述
这是mapreduce的一种优化策略:通过压缩编码对mapper或者reducer的输出进行压缩,以减少磁盘IO,提高MR程序运行速度(但相应增加了cpu运算负担)
1、 Mapreduce支持将map输出的结果或者reduce输出的结果进行压缩,以减少网络IO或最终输出数据的体积
2、 压缩特性运用得当能提高性能,但运用不当也可能降低性能
3、 基本原则:
运算密集型的job,少用压缩
IO密集型的job,多用压缩

4.3.2 MR支持的压缩编码

4.3.3 Reducer输出压缩
在配置参数或在代码中都可以设置reduce的输出压缩
1、在配置参数中设置
mapreduce.output.fileoutputformat.compress=false
mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.DefaultCodec
mapreduce.output.fileoutputformat.compress.type=RECORD

2、在代码中设置
Job job = Job.getInstance(conf);
FileOutputFormat.setCompressOutput(job, true);
FileOutputFormat.setOutputCompressorClass(job, (Class

相关文章推荐

MapReduce理解-深入理解MapReduce

前面的几篇博客主要介绍了Hadoop的存储HDFS,接下来几篇博客主要介绍Hadoop的计算框架MapReduce。本片博客主要讲解MapReduce框架的具体执行流程,以及shuffle过程,当然这...

MapReduce

想要对MapReduce有一个快速的认识,可以先看对话讲解MapReduce,有趣。 MapReduce工作原理 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管...

数据压缩原理与应用 DPCM编码

一.实验原理1.预测编码 本次实验采用的是DPCM编码,DPCM是差分预测编码调制的缩写,是比较典型的预测编码系统。 预测编码是利用信源相邻符号之间的相关性进行编码的一种编码过程,一般的图像前后像...

Android下使用lamemp3库将PCM录音数据压缩为MP3格式

转自:http://ikinglai.blog.51cto.com/6220785/1228730 之前已经介绍过iOS下使用lamemp3将PCM压缩为mp3格式,今天介绍一下Androi...

【实验四】无损数据压缩编解码实验

实验四、无损数据压缩编解码实验 一、概述     本次实验要求大家掌握霍夫曼编解码实现的数据结构以及具体的实现方法,并在实现的基础之上分析对不同文件进行压缩的效率。 二、实验涉及到基本原理     ...

关于GDI+的那些事(3)——在内存中将bmp数据压缩为jpeg

GDI+是支持各种常见图片格式的,自带各种bian
  • obmar45
  • obmar45
  • 2014年07月01日 14:56
  • 584

《openssl 编程》之数据压缩

16.1 简介 数据压缩是将原有数据通过某种压缩算法计算得到相对数据量小的过程。这种过程是可逆的,即能通过压缩后的数据恢复出原数据。数据压缩能够节省存储空间,减轻网络负载。 在即需要加密又...

数据压缩原理实验1_实验报告

数据压缩原理实验1_彩色空间转换实验(yuv转rgb)一、实验原理 (1)RGB转YUV Y=0.2990R+0.5870G+0.1140B R-Y=0.7010R-0.5870G-0.1140...

一次kafka空间激增排查:kafka的数据压缩、批量发送等

由于对kafka完全不了解,排查一个简单问题废了很大劲。
  • lcy362
  • lcy362
  • 2016年12月29日 17:21
  • 902

【数据压缩】wav格式初学习

WAVE文件格式分析 Offset Size Name Description 0 4 ChunkId 四个字节,分别在ASCII表码中对应这”RIFF” 4 4...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:mapreduce数据压缩
举报原因:
原因补充:

(最多只允许输入30个字)