- 博客(19)
- 资源 (6)
- 收藏
- 关注
原创 MapReduce(十八): MR任务开发说明
开发一个MR任务涉及代码编写,打包,运行,调试。指定第三方lib库,读取程序配置文件和资源文件,运行日志配置,能够读取指定源数据,并且输出结果到指定存储媒体。以下根据上述程序编写的基本条件逐一列出在hadoop中如何开发。1. 把自己的代码打包成jar包,jar包中可包含lib目录和classes目录,lib目录中可放第三方包,classes目录中可放额外配置文件或资源文件等。通过hado
2014-09-02 19:58:52 2184
原创 MapReduce(十七): MR的访问控制
1. ACLsManager是访问控制的总管理类,其维护了"mapreduce.cluster.administrators",QueueManager和JobACLsManager三个访问控制列表。2. "mapreduce.cluster.administrators"是从配置文件中配置mapreduce的管理员列表和group列表,用于检查访问用户是否属于admini
2014-09-02 19:55:25 808
原创 MapReduce(十四): JobTracker的心跳处理
1. 检查”mapred.hosts”文件中和”mapred.hosts.exclude”是否配置了允许接入或者拒绝的主机地址2. 如果是重启TaskTracker发的心跳,则在FaultyTrackersInfo中标识该TaskTracker所在的主机为健康。如果不是重启的,则检查在指定时间窗口中该主机发生的错误是否超过阈值,如果不超过则把属于该主机的gray状态设置为false。如果指定时
2014-09-02 18:29:02 1189
原创 MapReduce(十三): MapReduce拓扑
JobTracker启动后,第一次收到TaskTracker的心跳消息,对收到的TaskTracker所在的主机加入到MapReduce计算环境的网络拓扑中。网络拓扑以树形的方式记录:ROOT(0)->NetworkLocation(1)->Host(2),()号中的数字是网络的level,ROOT是虚节点,整个MapReduce计算网络的根,level是0;ROOT下分多个NetworkLoca
2014-09-02 18:28:14 729
原创 MapReduce(七): TaskTracker执行任务
1. 第一步检查JobTracker版本号与自身版本号是否一致,并且检查localStorage中配置的目录是否都能正常访问。2. 第二步向JobTracker发送心跳,返回LaunchTaskAction,KillTaskAction,KillJobAction和CommitTaskAction。3. 第三步开始运行任务,如果是LaunchTaskAction则把任务放到TaskL
2014-09-02 12:12:54 990
原创 MapReduce(六): 向JobTracker提交任务
1. 在提交任务之前,可以通过GenericOptionsParser,把命令行中的参数设置到JobConf中,涉及到的命令行参数有:-fs,-jt,-conf(指定xml参数文件),-libjars(指定执行任务的jar包),-files(指定该任务可能用到的文件),-archives(指定该任务可能用到的资源),tokenCacheFile(指定登陆的口令文件)。2.
2014-09-02 12:04:48 1389
原创 MapReduce(五): TaskTracker的初始化
1. 第1步初始话文件系统localStorage,本地文件路径是通过mapred.local.dir配置,默认在 /tmp/hadoop-${user.name}/mapred/local目录下,并在该目录下创建taskTracker,ttprivate,tt_log_tmp,userlogs目录,用于存放运行Task的文件。除了userlogs目录如果不存在则创建
2014-09-02 11:59:32 696
原创 MapReduce(二): Job的运行状态
提交一个Job后,其Job的状态变化过程如上图。一个Job包含Job Setup、Map、Reduce、Task、Task Clean、Job Cleanup 任务操作。JobTracker先分配一个Job Setup任务让TaskTracker执行,做Job的初始化工作。当Job Setup完成后Job进入RUNNING状态;执行完成后JobTracker分配Map任务给TaskTracker执
2014-09-02 11:37:40 1887
原创 MapReduce(一): Hadoop的简单配置运行
1.1.1 集群规划节点名Ip地址安装路径主端口监控端口NameNode192.168.74.103/opt/hdfs/hadoop-1.1.2900050070DataNode192.168.74.104/op
2014-09-02 10:18:15 918
Google搜索技术
2013-04-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人