MapReduce计算过程中的压缩和效率的对比问题

最新推荐文章于 2024-04-22 21:59:28 发布

biaorger

最新推荐文章于 2024-04-22 21:59:28 发布

阅读量1.1k

点赞数

分类专栏：大数据文章标签： mapreduce

大数据专栏收录该内容

5 篇文章 0 订阅

订阅专栏

为什么压缩会提高计算速度？这是因为mapreduce计算会将数据文件分散拷贝到所有datanode上，压缩可以减少数据浪费在带宽上的时间，当这些时间大于压缩/解压缩本身的时间时，计算速度就会提高了。

hadoop的压缩除了将输入文件进行压缩外，hadoop本身还可以在计算过程中将map输出以及将reduce输出进行压缩。这种计算当中的压缩又有什么样的效果呢？

测试环境：35台节点的hadoop cluster，单机2 CPU,8 core,8G内存，redhat 2.6.9, 其中namenode和second namenode各一台，namenode和second namenode不作datanode

输入文件大小为2.5G不压缩，records约为3600万条。mapreduce程序分为两个job:
job1:map将record按user字段作key拆分，reduce中作外连接。这样最后reduce输出为87亿records，大小540G
job2:map读入这87亿条数据并输出，reduce进行简单统计，最后的records为2.5亿条，大小16G
计算耗时54min

仅对第二个阶段的map作压缩(第一个阶段的map输出并不大，没有压缩的必要)，测试结果：计算耗时39min

可见时间上节约了15min，注意以下参数的不同。
不压缩时:
   Local bytes read=1923047905109
   Local bytes written=1685607947227
   压缩时：
   Local bytes read=770579526349
   Local bytes written=245469534966
   本地读写的的数量大大降低了

   至于对reduce输出的压缩，很遗憾经过测试基本没有提高速度的效果。可能是因为第一个job的输出大多数是在本地机上进行map，不经过网络传输的原因。
   附：对map输出进行压缩，只需要添加jobConf.setMapOutputCompressorClass(DefaultCodec.class)

biaorger

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce计算过程中的压缩和效率的对比问题

为什么压缩会提高计算速度？这是因为mapreduce计算会将数据文件分散拷贝到所有datanode上，压缩可以减少数据浪费在带宽上的时间，当这些时间大于压缩/解压缩本身的时间时，计算速度就会提高了。 hadoop的压缩除了将输入文件进行压缩外，hadoop本身还可以在计算过程中将map输出以及将reduce输出进行压缩。这种计算当中的压缩又有什么样的效果呢？测试环境：
复制链接

扫一扫

专栏目录