Hadoop
等你628
这个作者很懒,什么都没留下…
展开
-
Hadoop中Map端shuffle过程及源码解析
分析的源码是基于Hadoop2.6.0。 官网上面的MapReduce过程 Map端shuffle的过程: 在执行每个map task时,无论map方法中执行什么逻辑,最终都是要把输出写到磁盘上。如果没有reduce阶段,则直接输出到hdfs上,如果有有reduce作业,则每个map方法的输出在写磁盘前线在内存中缓存。每个map task都有一个环状的内存缓冲区,存储着map的输出结果原创 2016-05-20 13:18:20 · 25500 阅读 · 5 评论 -
Hadoop中reduce端shuffle过程及源码解析
在Child的main函数中通过TaskUmbilicalProtocol协议,从TaskTracker获得需要执行的Task,并调用Task的run方法来执行。在ReduceTask而Task的run方法会通过java反射机制构造Reducer,Reducer.Context,然后调用构造的Reducer的run方法执行reduce操作。不同于map任务,在执行reduce任务前,需要把map的输转载 2016-05-22 21:20:15 · 3232 阅读 · 0 评论 -
Hadoop中FileInputFormat源码解析
基于Hadoop2.6.0 //生成文件list,放进filesplits public List getSplits(JobContext job) throws IOException { Stopwatch sw = new Stopwatch().start(); long minSize = Math.max(getFormatMinSplitSize(), ge原创 2016-05-22 23:20:25 · 1194 阅读 · 0 评论 -
ubuntu下is not in the sudoers file 解决方案
如果当前用户下出现,可以切换到另外一个有该权限的用户,在该用户下输入: sudo usermod -a -G adm water3 sudo usermod -a -G sudo water3 备注:其中water3为出现问题的用户原创 2016-06-15 17:06:01 · 625 阅读 · 0 评论