新人分享—hadoop源码1

最新推荐文章于 2024-05-04 17:32:52 发布

weixin_38609297

最新推荐文章于 2024-05-04 17:32:52 发布

阅读量74

点赞数

本文链接：https://blog.csdn.net/weixin_38609297/article/details/83927801

版权

从Driver开始
这篇算是submit的过程
waitForCompletion
进来的第一个方法是submit()
这里分别是确定状态，设置新的api（这里我使用的是Hadoop 2.7.2版本）以及连接等方法，我们看connect（）方法
这里需要返回一个Cluster对象
我们来看它的初始化方法
这里是需要获取一个客户端连接协议，然后create（）会创建一个，进去看
然后这里就赋值，client是localjobrunner 然后就走完了初始化方法，（其实下面还有个验证，就不看了）
然后就返回一个cluster,connect()方法走完了
进来了，这里第一个方法就是检查输出路径，如果存在了就异常，不进去了
这里能找到这个文件夹，待会再来看看
这里的 submitJobDir：file:/tmp/hadoop-19742/mapred/staging/197421113709134/.staging/job_local1113709134_0001就是staging加上jobid的文件夹，这个方法是上传个配置文件夹、jar包、等等
这个类里面只有这两个方法，所有上面input.getSplits(job)方法指定是来自父类的，附上一张类关系图

这里是所有的已有的inputFormat，当然你也可以自定义的，也很简单，照猫画虎呗。好吧，咱们看看默认的切片机制吧

在这里插入图片描述
这个就是计算的方法了，可以根据公式设置参数，改变切片大小
后面就将切片放入一个数组中最后返回

这里就是将返回的各个切片的list装入了一个数组，还进行了排序，然后写入到了jobSubmitDir中

这里的jobid和我之前截图的id不一样，不要在意这种细节了，因为我跑了好多遍~~

在这里插入图片描述
然后这个maps就是切片数了，就是maptask的数量了

然后后面是设置什么队列名儿，设置什么tracking id 、reservation Id等等
这里是写入配置文件

激动人心的时刻到了！
在这里插入图片描述
这里开始真正的干活了

告诉大家干的什么活儿，写的明明白白，好吧，干活了

这里是localRunner,还有一个YarnRunner

jobStatus

weixin_38609297

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
新人分享—hadoop源码1

其实一直想写一个源码的文章，但是一直懒的写，刚好公司需要分享，就写了这个文章，如有不足，那也没办法，吼吼~waitForCompletion这里分别是确定状态，设置新的api（这里我使用的是Hadoop 2.7.2版本）以及连接等方法，我们看connect（）方法这里需要返回一个Cluster对象我们来看它的初始化方法...
复制链接

扫一扫