hadoop framework

[url]http://hadoop.apache.org/common/docs/r1.0.3/mapred_tutorial.html[/url]
[b]mapper[/b]
mapper的任务就是把key-value pair转换成key-value pair,作为reducer的输入。
MapReduce framework会为每个InputSplit都分配一个mapper线程,完全并行计算。

mapper的结果在发送到reducer之前有的时候需要进行一次combine, 这中操作都在mapper所在的结点上进行,目的是减少发送到reducer结点的数据。
可以自己指定combiner : JobConf.setCombinerClass(Class)

mapper产生的key-value结果集合会根据key进行分组,然后不同的分组分发到不同的reducer上,可以使用JobConf.setOutputKeyComparatorClass(Class)指定自己的comparator来进行分组。

每个reducer都相当于一个partition, MapReduce Framework默认应该有一个很简单的partition规则,把mapper的结果集合根据key进行partition,然后分发到响应的reducer.也可以指定自己的partitioner, 实现Partitioner接口。
HashPartitioner is the default Partitioner.

需要多少个mapper?
取决于原始文件的大小和blocksize,通常来说每个block都有一个mapper.
num of mapper = filesize / blocksize。
一般来说,每个几点上可以同时有10 - 100个mapper task.

[b]Reducer[/b]
reducer的任务是把key-list<value>转换成key-value pair,把结果输出到hdfs上。
reducer声明周期的三个阶段:
shuffle(洗牌) :通过http从所有的mapper上获取属于这个partition的数据。

sort(排序) : 虽然mapper的结果是排好序的,但是因为数据来自不同的mapper, 还是要把属于同一个key的所有数据整合在一起。
上两个阶段是同时进行的。

secondary sort(二次排序) : 如果自己指定数据如何根据key进行分组,则进行二次排序
JobConf.setOutputValueGroupingComparator(Class)
JobConf.setOutputKeyComparatorClass(Class)

reduce(处理) :结果是不排序的(记得貌似是部分排序)。

reducer的数量:
0.95 or 1.75 * (<no. of nodes> * mapred.tasktracker.reduce.tasks.maximum).
如果是0.95的话,所有的reducer都可以马上就开始工作。
(tag:我们的集群上应该有一个统筹管理所有job的controller)
如果是1.75, 运行最快的reducer结束它的工作之后,可以进行下一轮工作了。(prefer)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值