- 博客(3)
- 资源 (2)
- 收藏
- 关注
原创 Hadoop的JobControl设计及用法
JobControl设计及用法1、JobControl设计原理分析:JobControl由两个类组成:Job和JobControl。Job类封装了一个MapReduce作业及其对应的依赖关系,主要负责监控各个依赖作业的运行状态,一次更新自己的状态。作业刚开始处于WAITING状态。如果没有依赖作业或者所有作业均已运行完成,则进入READY状态。一旦进入REDAY状态,则
2016-02-27 13:18:53 3978
原创 数据按列排序
对一些有指定分隔符的数据,按照对应列数进行自定义排序原始数据:hadoop@sh-hadoop:more sourText.txt hadoop|234|2346|sdfasdgadfgdfgspark|534|65745|fhsdfghdfghhive|65|6585|shsfghfghhbase|98|456|jhgjdfghjtachyon|345|567|sfhr
2016-02-23 15:31:32 928
转载 MapReduce V1:Job提交流程之JobClient端分析
MapReduce V1:Job提交流程之JobClient端分析我们基于Hadoop 1.2.1源码分析MapReduce V1的处理流程。MapReduce V1实现中,主要存在3个主要的分布式进程(角色):JobClient、JobTracker和TaskTracker,我们主要是以这三个角色的实际处理活动为主线,并结合源码,分析实际处理流程。下图是《Hadoop
2016-02-19 14:52:24 2065
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人