MapReduce
文章平均质量分 55
FacingTheSunCN
这个作者很懒,什么都没留下…
展开
-
MapReduce里面的二次排序、组排序和Partitioner
在MapReduce程序中,我们常常需要对属于同一个key的value进行排序,即“二次排序”,将key和value进行组合,合并成一个新的key,给map去排序。在Hadoop 1.0.4中,利用setSortComparatorClass()对二次排序进行设定,但是sort comparator需要自己实现一个comparator,下面是一个自己实现的comparator的例子。 pu原创 2013-03-24 14:51:24 · 1503 阅读 · 2 评论 -
MapReduce中Reducer与reduce的关系
同一个Reducer可能会接收多个key的记录,但是同一个key的记录会在一个单独的reduce中处理,因此就涉及到参数的作用域的问题。 有时候我们会在Reducer中初始化一些公共参数(可以在setup中初始化),然后在reduce中使用。要注意,这些公共参数是所有reduce共有的,如果不注意比较容易出错,例如对一个int型变量施加自加或者自减操作,常常以为是从0开始操作的,其实它在其他ke原创 2013-03-25 11:30:01 · 1535 阅读 · 0 评论 -
MapReduce的并行执行效率
从搭好Hadoop集群之后,再上面跑了一些程序,由于数据量较小,得到实验结果的时间也还可以忍受,因此也就没有关注MapReduce并行执行效率这方面的问题。后来跑了几个大的数据集,都发现非常的慢,于是就不得不关系效率方面的问题了。 查看任务管理器的时候发现有很多处理器是没有利用的,只有一两个的利用率较高,与我们对MapReduce的直觉相差很大,于是问了一个一直在研究Hadoop的同学,发现我们原创 2013-05-11 21:41:30 · 2048 阅读 · 0 评论