Hadoop
文章平均质量分 59
dickens
我和同伴在新邮通信设备有限公司成立了新邮通信上海OMC研究所,专注于3g无线网,lte,核心网和EPC网络的网络管理系统(OMC)的研发,我主要负责OMC的架构设计,总体设计工作。在这之前在鼎桥通信,大唐移动担任研发经理。
展开
-
MapReduce(四): JobTracker的初始化
原创 2014-09-02 11:57:43 · 581 阅读 · 0 评论 -
MapReduce(八): MapReduce文件切割算法
描述了对某一个大文件进行默认文件切割的算法原创 2014-09-02 12:17:03 · 3157 阅读 · 0 评论 -
MapReduce(十): 详解Map任务运行
详细描述在Map阶段把处理好的数据如何进行分区存储原创 2014-09-02 16:08:35 · 2127 阅读 · 1 评论 -
MapReduce(十二): Map和Reduce阶段数据合并的处理
在代码层面描述在Map和Reduce处理大数据后如何归并存储原创 2014-09-02 18:16:38 · 8338 阅读 · 2 评论 -
MapReduce(九): 任务的运行
描述执行Map和Reduce任务的代码框架以及各个阶段任务的作用原创 2014-09-02 16:03:17 · 627 阅读 · 0 评论 -
MapReduce(十七): MR的访问控制
1. ACLsManager是访问控制的总管理类,其维护了"mapreduce.cluster.administrators",QueueManager和JobACLsManager三个访问控制列表。2. "mapreduce.cluster.administrators"是从配置文件中配置mapreduce的管理员列表和group列表,用于检查访问用户是否属于admini原创 2014-09-02 19:55:25 · 794 阅读 · 0 评论 -
MapReduce(十四): JobTracker的心跳处理
1. 检查”mapred.hosts”文件中和”mapred.hosts.exclude”是否配置了允许接入或者拒绝的主机地址2. 如果是重启TaskTracker发的心跳,则在FaultyTrackersInfo中标识该TaskTracker所在的主机为健康。如果不是重启的,则检查在指定时间窗口中该主机发生的错误是否超过阈值,如果不超过则把属于该主机的gray状态设置为false。如果指定时原创 2014-09-02 18:29:02 · 1177 阅读 · 0 评论 -
MapReduce(十五): 从HDFS读取文件的源码分析
从HDFS读取文件的源码分析原创 2014-09-02 19:41:00 · 1927 阅读 · 0 评论 -
MapReduce(十六): 写数据到HDFS的源码分析
对写数据到HDFS的源码分析原创 2014-09-02 19:53:07 · 1034 阅读 · 0 评论 -
MapReduce(十三): MapReduce拓扑
JobTracker启动后,第一次收到TaskTracker的心跳消息,对收到的TaskTracker所在的主机加入到MapReduce计算环境的网络拓扑中。网络拓扑以树形的方式记录:ROOT(0)->NetworkLocation(1)->Host(2),()号中的数字是网络的level,ROOT是虚节点,整个MapReduce计算网络的根,level是0;ROOT下分多个NetworkLoca原创 2014-09-02 18:28:14 · 719 阅读 · 0 评论 -
MapReduce(七): TaskTracker执行任务
1. 第一步检查JobTracker版本号与自身版本号是否一致,并且检查localStorage中配置的目录是否都能正常访问。2. 第二步向JobTracker发送心跳,返回LaunchTaskAction,KillTaskAction,KillJobAction和CommitTaskAction。3. 第三步开始运行任务,如果是LaunchTaskAction则把任务放到TaskL原创 2014-09-02 12:12:54 · 977 阅读 · 0 评论 -
MapReduce(三): MapReduce的主要功能模块
由于本系列文章主要是对底层代码实现的描述,原创 2014-09-02 11:46:32 · 4109 阅读 · 0 评论 -
MapReduce(一): Hadoop的简单配置运行
1.1.1 集群规划节点名Ip地址安装路径主端口监控端口NameNode192.168.74.103/opt/hdfs/hadoop-1.1.2900050070DataNode192.168.74.104/op原创 2014-09-02 10:18:15 · 906 阅读 · 0 评论 -
MapReduce(二): Job的运行状态
提交一个Job后,其Job的状态变化过程如上图。一个Job包含Job Setup、Map、Reduce、Task、Task Clean、Job Cleanup 任务操作。JobTracker先分配一个Job Setup任务让TaskTracker执行,做Job的初始化工作。当Job Setup完成后Job进入RUNNING状态;执行完成后JobTracker分配Map任务给TaskTracker执原创 2014-09-02 11:37:40 · 1855 阅读 · 0 评论 -
MapReduce(十八): MR任务开发说明
开发一个MR任务涉及代码编写,打包,运行,调试。指定第三方lib库,读取程序配置文件和资源文件,运行日志配置,能够读取指定源数据,并且输出结果到指定存储媒体。以下根据上述程序编写的基本条件逐一列出在hadoop中如何开发。1. 把自己的代码打包成jar包,jar包中可包含lib目录和classes目录,lib目录中可放第三方包,classes目录中可放额外配置文件或资源文件等。通过hado原创 2014-09-02 19:58:52 · 2174 阅读 · 0 评论 -
MapReduce(六): 向JobTracker提交任务
1. 在提交任务之前,可以通过GenericOptionsParser,把命令行中的参数设置到JobConf中,涉及到的命令行参数有:-fs,-jt,-conf(指定xml参数文件),-libjars(指定执行任务的jar包),-files(指定该任务可能用到的文件),-archives(指定该任务可能用到的资源),tokenCacheFile(指定登陆的口令文件)。2.原创 2014-09-02 12:04:48 · 1374 阅读 · 0 评论 -
MapReduce(五): TaskTracker的初始化
1. 第1步初始话文件系统localStorage,本地文件路径是通过mapred.local.dir配置,默认在 /tmp/hadoop-${user.name}/mapred/local目录下,并在该目录下创建taskTracker,ttprivate,tt_log_tmp,userlogs目录,用于存放运行Task的文件。除了userlogs目录如果不存在则创建原创 2014-09-02 11:59:32 · 687 阅读 · 0 评论 -
MapReduce(十一): 详解Reduce任务运行
详细描述在Redcue阶段,如何从Map端获取数据,然后Reduce处理后如何存储原创 2014-09-02 16:47:28 · 1475 阅读 · 0 评论