HADOOP
苦海离乱卐
这个作者很懒,什么都没留下…
展开
-
Hadoop Family Job Schedule----Azkaban
Hadoop Family JobSchedule----Azkaban 1.1 Azkaban 在大量的MR以及Pig等脚本任务产生的时候,必然会需求一个调度平台,Apache 的OOZIE是一个选择,当然Azkaban也是另外一种选择。 Azkaban可以对任务进行工作流定义,即每个Job可以依赖别的Job或者主动启动OtherJob。同时该平台提供很完善的Mail Notific原创 2013-09-04 14:43:48 · 1718 阅读 · 1 评论 -
hadoop2.2 hdfs
hdfs 变动 开始使用多个namenode,避免namenode的单点故障。多个namenode是不容许交互的。 block pool 每个namenode 都会有一个自己独立的block pool 用于存储集群上所有datanode的信息,也就是每个namenode都可以独立使用,所存储的数据是一个全集。 所以当一个原创 2013-11-15 11:34:56 · 803 阅读 · 0 评论 -
Mapreduce hadoop 分析
1.1 Mapreduce 1.1.1 逻辑过程 1.1.2 InputFormat 首相 根据context获取到split InputSplit包含该split所在的location的信息和一个长度信息。 【FileInputFormat划分算法:mapred.min.split.size GoalSize=FileSize/ugoalNum原创 2015-05-16 09:38:13 · 366 阅读 · 0 评论 -
hadoop yarn机制
1 Yarn Jobtracker存在单点故障,并且在该节点当集群规模非常大时,存在性能瓶颈。 1.1.1 结构图 ResourceManager:RM。YARN的中控模块,负责统一规划资源的使用。{包含schedule和AppManager:启动和加载AppMaster} NodeManager: NM。YARN的资源结点模块,负责启动管理container。 A原创 2015-05-16 10:02:25 · 315 阅读 · 0 评论