Hadoop权威指南-第二章学习笔记

2.4.2 combiner函数
集群的贷款限制MapReduce作业的数量,为了避免map和reduce任务之间的数据传输,为map任务的输出指定一个combiner(map函数的输出走位combiner的输入,combiner的输出作为reduce函数的输入)优化方案
自己的理解:combiner也就是一个map对应的一个reduce,每个combiner会给每一个map任务的输出执行一遍reduce任务,也就是简化了map任务的输出,使一个输入值只对应一个输出值。相对于原来map的输出(年份,度数的集合)简化成了(年份,最高气温),这样在reduce任务排序的时候就简化了。
combiner不能取代reduce函数的原因:不同的map会输出相同的键,这样combiner输出的也是两个相同的键值的集合
指定combiner函数的方式:job.setCombinerClass(MaxTempratureReducer.class);

2.5 Hadoop Stream(太多的不懂,一些程序和命令)
Map函数的输出转换为标准的输入流,供reduce读取,在读取之前已经由Hadoop框架内部排过序,且键值之间由制表符(\t)分割

2.6 Hadoop Pipes(Streaming的C++版本)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值