hadoop
mjforjava2
开心工作,认真生活
展开
-
mapreduce的shuffle详解
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在原创 2014-04-24 22:46:39 · 555 阅读 · 0 评论 -
hadoop的WordCount例子
package cn.lmj.mapreduce; import java.io.IOException; import java.util.Iterator; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Te原创 2014-04-24 22:47:17 · 1029 阅读 · 0 评论 -
mapreduce程序实现排序
文件的内容如下所示: 5 45 8 876 6 45 要求最后的输出格式: 1 5 2 6 3 8 4 45 5 45 5 876 首先,这个题目是需要对文件的内容进行排序操作。我们都知道在mapper阶段是会对key进行排序的,我们就利用这个出发,把输入一行的数据转换成int,再把该int做mapper的key输原创 2014-04-26 22:12:13 · 2137 阅读 · 1 评论