mapreduce数据压缩

原创 2017年07月17日 19:27:35

概述
这是mapreduce的一种优化策略:通过压缩编码对mapper或者reducer的输出进行压缩,以减少磁盘IO,提高MR程序运行速度(但相应增加了cpu运算负担)
1、 Mapreduce支持将map输出的结果或者reduce输出的结果进行压缩,以减少网络IO或最终输出数据的体积
2、 压缩特性运用得当能提高性能,但运用不当也可能降低性能
3、 基本原则:
运算密集型的job,少用压缩
IO密集型的job,多用压缩

4.3.2 MR支持的压缩编码

4.3.3 Reducer输出压缩
在配置参数或在代码中都可以设置reduce的输出压缩
1、在配置参数中设置
mapreduce.output.fileoutputformat.compress=false
mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.DefaultCodec
mapreduce.output.fileoutputformat.compress.type=RECORD

2、在代码中设置
Job job = Job.getInstance(conf);
FileOutputFormat.setCompressOutput(job, true);
FileOutputFormat.setOutputCompressorClass(job, (Class

Hadoop MapReduce处理海量小文件:压缩文件

在HDFS上存储文件,大量的小文件是非常消耗NameNode内存的,因为每个文件都会分配一个文件描述符,NameNode需要在启动的时候加载全部文件的描述信息,所以文件越多,对 NameNode...
  • haizhaopeng
  • haizhaopeng
  • 2015年07月29日 05:56
  • 1982

hadoop深入研究:(九)——mapreduce中的压缩

转载请注明出处:http://blog.csdn.net/lastsweetop/article/details/9187721作为输入 当压缩文件做为mapreduce的输入时,mapreduce将...
  • lastsweetop
  • lastsweetop
  • 2013年06月28日 09:20
  • 13201

分布式机器学习的故事(四):Rephil和MapReduce——描述长尾数据的数学模型

Google Rephil是Google AdSense背后广告相关性计算的头号秘密武器。但是这个系统没有发表过论文。只是其作者(博士Uri Lerner和工程师Mike Yar)在2002年在湾区举...
  • overstack
  • overstack
  • 2014年02月21日 12:54
  • 6325

Hadoop On Yarn Mapreduce运行原理与常用数据压缩格式

我们通过提交jar包,进行MapReduce处理,那么整个运行过程分为五个环节: 1、向client端提交MapReduce job. 2、随后yarn的ResourceManager进行资源的分...
  • xiangxizhishi
  • xiangxizhishi
  • 2017年07月22日 07:33
  • 203

数据压缩实验五 JPEG原理分析JPEG解码器的调试

掌握JPEG编解码系统的基本原理。初步掌握复杂的数据压缩算法实现,并能根据理论分析需要实现所对应数据的输出。...
  • Alfred512
  • Alfred512
  • 2017年07月09日 11:08
  • 207

【数据压缩】LZW算法原理与源码解析

LZW压缩算法原理非常简单,因而被广泛地采用,已经被引入主流图像文件格式中。该算法由Lempel-Ziv-Welch三人发明,这种技术将定长码字分配给变长信源符号序列,它不需要知道被压缩文件的符号出现...
  • luoshixian099
  • luoshixian099
  • 2015年12月17日 21:48
  • 5587

数据压缩 BMPtoYUV

实验二 BMPtoYUV实验原理 BMP格式简介 BMP(全称Bitmap)是Windows操作系统中的标准图像文件格式,可以分成两类:设备相关位图(DDB)和设备无关位图(DIB),使用非常广。它...
  • Sssssusu
  • Sssssusu
  • 2017年03月28日 12:01
  • 317

数据压缩原理实验5_实验报告

JPEG 原理分析及 JPEG 解码器的调试
  • jiaoshiyuan
  • jiaoshiyuan
  • 2017年07月08日 23:08
  • 142

数据压缩实验5-JEPG解码

1.实验原理 1.1 JPEG算法概要 JPEG(Joint Photographic Experts Group)是一个由ISO和IEC两个组织机构联合组成的一个专家组,负责制定静态的数字图像数...
  • fang_na
  • fang_na
  • 2017年06月05日 14:46
  • 171

Oracle 数据压缩(Compression) 技术 说明

一.  官网说明 1.1 Oracle 11g Advanced Compression   Oracle 11g EE版本中只有: Basic Table Compression ,而 Ad...
  • mituan1234567
  • mituan1234567
  • 2012年12月04日 10:02
  • 542
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:mapreduce数据压缩
举报原因:
原因补充:

(最多只允许输入30个字)