Hadoop_dickens的博客-CSDN博客

Hadoop

关注

文章平均质量分 59

关注数：文章数：18 文章阅读量：34107 文章收藏量：7

作者: dickens

我和同伴在新邮通信设备有限公司成立了新邮通信上海OMC研究所，专注于3g无线网，lte，核心网和EPC网络的网络管理系统(OMC)的研发，我主要负责OMC的架构设计，总体设计工作。在这之前在鼎桥通信，大唐移动担任研发经理。

展开

MapReduce(四): JobTracker的初始化

原创 2014-09-02 11:57:43 · 582 阅读 · 0 评论
MapReduce(八): MapReduce文件切割算法

描述了对某一个大文件进行默认文件切割的算法

原创 2014-09-02 12:17:03 · 3160 阅读 · 0 评论
MapReduce(十): 详解Map任务运行

详细描述在Map阶段把处理好的数据如何进行分区存储

原创 2014-09-02 16:08:35 · 2135 阅读 · 1 评论
MapReduce(十二): Map和Reduce阶段数据合并的处理

在代码层面描述在Map和Reduce处理大数据后如何归并存储

原创 2014-09-02 18:16:38 · 8355 阅读 · 2 评论
MapReduce(九): 任务的运行

描述执行Map和Reduce任务的代码框架以及各个阶段任务的作用

原创 2014-09-02 16:03:17 · 627 阅读 · 0 评论
MapReduce(十七): MR的访问控制

1. ACLsManager是访问控制的总管理类，其维护了"mapreduce.cluster.administrators"，QueueManager和JobACLsManager三个访问控制列表。 2. "mapreduce.cluster.administrators"是从配置文件中配置mapreduce的管理员列表和group列表，用于检查访问用户是否属于admini

原创 2014-09-02 19:55:25 · 797 阅读 · 0 评论
MapReduce(十四): JobTracker的心跳处理

1．检查”mapred.hosts”文件中和”mapred.hosts.exclude”是否配置了允许接入或者拒绝的主机地址 2．如果是重启TaskTracker发的心跳，则在FaultyTrackersInfo中标识该TaskTracker所在的主机为健康。如果不是重启的，则检查在指定时间窗口中该主机发生的错误是否超过阈值，如果不超过则把属于该主机的gray状态设置为false。如果指定时

原创 2014-09-02 18:29:02 · 1178 阅读 · 0 评论
MapReduce(十五): 从HDFS读取文件的源码分析

从HDFS读取文件的源码分析

原创 2014-09-02 19:41:00 · 1930 阅读 · 0 评论
MapReduce(十六): 写数据到HDFS的源码分析

对写数据到HDFS的源码分析

原创 2014-09-02 19:53:07 · 1036 阅读 · 0 评论
MapReduce(十三): MapReduce拓扑

JobTracker启动后，第一次收到TaskTracker的心跳消息，对收到的TaskTracker所在的主机加入到MapReduce计算环境的网络拓扑中。网络拓扑以树形的方式记录：ROOT(0)->NetworkLocation(1)->Host(2)，()号中的数字是网络的level，ROOT是虚节点，整个MapReduce计算网络的根，level是0；ROOT下分多个NetworkLoca

原创 2014-09-02 18:28:14 · 721 阅读 · 0 评论
MapReduce(七): TaskTracker执行任务

1. 第一步检查JobTracker版本号与自身版本号是否一致，并且检查localStorage中配置的目录是否都能正常访问。 2. 第二步向JobTracker发送心跳，返回LaunchTaskAction，KillTaskAction，KillJobAction和CommitTaskAction。 3. 第三步开始运行任务，如果是LaunchTaskAction则把任务放到TaskL

原创 2014-09-02 12:12:54 · 979 阅读 · 0 评论
MapReduce(三): MapReduce的主要功能模块

由于本系列文章主要是对底层代码实现的描述，

原创 2014-09-02 11:46:32 · 4119 阅读 · 0 评论
MapReduce(一): Hadoop的简单配置运行

1.1.1 集群规划节点名 Ip地址安装路径主端口监控端口 NameNode 192.168.74.103 /opt/hdfs/hadoop-1.1.2 9000 50070 DataNode 192.168.74.104 /op

原创 2014-09-02 10:18:15 · 910 阅读 · 0 评论
MapReduce(二): Job的运行状态

提交一个Job后，其Job的状态变化过程如上图。一个Job包含Job Setup、Map、Reduce、Task、Task Clean、Job Cleanup 任务操作。JobTracker先分配一个Job Setup任务让TaskTracker执行，做Job的初始化工作。当Job Setup完成后Job进入RUNNING状态；执行完成后JobTracker分配Map任务给TaskTracker执

原创 2014-09-02 11:37:40 · 1862 阅读 · 0 评论
MapReduce(十八): MR任务开发说明

开发一个MR任务涉及代码编写，打包，运行，调试。指定第三方lib库，读取程序配置文件和资源文件，运行日志配置，能够读取指定源数据，并且输出结果到指定存储媒体。以下根据上述程序编写的基本条件逐一列出在hadoop中如何开发。 1. 把自己的代码打包成jar包，jar包中可包含lib目录和classes目录，lib目录中可放第三方包，classes目录中可放额外配置文件或资源文件等。通过hado

原创 2014-09-02 19:58:52 · 2176 阅读 · 0 评论
MapReduce(六): 向JobTracker提交任务

1. 在提交任务之前，可以通过GenericOptionsParser,把命令行中的参数设置到JobConf中，涉及到的命令行参数有：-fs，-jt，-conf（指定xml参数文件），-libjars（指定执行任务的jar包），-files（指定该任务可能用到的文件），-archives（指定该任务可能用到的资源），tokenCacheFile（指定登陆的口令文件）。 2.

原创 2014-09-02 12:04:48 · 1377 阅读 · 0 评论
MapReduce(五): TaskTracker的初始化

1. 第1步初始话文件系统localStorage，本地文件路径是通过mapred.local.dir配置，默认在 /tmp/hadoop-${user.name}/mapred/local目录下，并在该目录下创建taskTracker，ttprivate，tt_log_tmp，userlogs目录，用于存放运行Task的文件。除了userlogs目录如果不存在则创建

原创 2014-09-02 11:59:32 · 687 阅读 · 0 评论
MapReduce(十一): 详解Reduce任务运行

详细描述在Redcue阶段，如何从Map端获取数据，然后Reduce处理后如何存储

原创 2014-09-02 16:47:28 · 1476 阅读 · 0 评论

Hadoop

作者: dickens

MapReduce(四): JobTracker的初始化

MapReduce(八): MapReduce文件切割算法

MapReduce(十): 详解Map任务运行

MapReduce(十二): Map和Reduce阶段数据合并的处理

MapReduce(九): 任务的运行

MapReduce(十七): MR的访问控制

MapReduce(十四): JobTracker的心跳处理

MapReduce(十五): 从HDFS读取文件的源码分析

MapReduce(十六): 写数据到HDFS的源码分析

MapReduce(十三): MapReduce拓扑

MapReduce(七): TaskTracker执行任务

MapReduce(三): MapReduce的主要功能模块

MapReduce(一): Hadoop的简单配置运行

MapReduce(二): Job的运行状态

MapReduce(十八): MR任务开发说明

MapReduce(六): 向JobTracker提交任务

MapReduce(五): TaskTracker的初始化

MapReduce(十一): 详解Reduce任务运行