- 博客(10)
- 资源 (4)
- 收藏
- 关注
原创 Azkaban-任务调度管理器
Azkaban据说是哈利波特系列故事中的一座监狱的名字,卧槽,搜索这个词多数也都是哈利波特相关的网页,真是恼火!能搜到的azkaban的项目主页在:http://azkaban.github.io/azkaban2/,这里介绍得还是比较详细的,源码地址https://github.com/azkaban,项目主页提供的下载链接http://azkaban.github.io/azkaban2/do
2013-12-31 19:23:07 3983 4
原创 【Mapred】输入数据的分片实质
http://blog.csdn.net/tracymkgld/article/details/17578593提到作业的提交的时候,输入数据需要分片,当时提到有新旧两种分片方式,那么这里就来看看什么是新方法,与旧方法有什么不同。hadoop1.0.3依据参数 mapred.mapper.new-api的配置选择不同的切片方法。同样在http://blog.csdn.net/tracym
2013-12-27 17:15:24 886
原创 【Mapred】jobtracker & tasktracker架构作业是怎么提交的
Streaming那一套就先不管了,提交作业部分的代码肯定是一样的,只不过客户端提交的方式不一样。很多人都从wordCount看起,看吧,我擦。Configuration conf = new Configuration(); String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
2013-12-26 12:03:43 1964
原创 【HDFS】Trash的周期清理
看namenode的启动代码,在初始化的时候 startTrashEmptier(conf);有这个么东西,启动TrashEmptier,empire翻译成排空装置,我擦,起名起得很牛逼啊、 private void startTrashEmptier(Configuration conf) throws IOException { this.emptier = new Th
2013-12-25 16:50:25 2196
原创 【HDFS】文件入Trash-rename操作
接http://blog.csdn.net/tracymkgld/article/details/17552189上篇没提到Trash具体怎么工作,接着看一下: if(!skipTrash) { try { Trash trashTmp = new Trash(srcFs, getConf()); if (trashTmp.moveToTrash
2013-12-25 16:14:36 1979
原创 【HDFS】namenode如何根据输入的文件(路径)名找到对应的inode的?
大家都用过 hadoop dfs -ls/rmr/rm/get/put/cat等命令,后面跟的都是一个字符串形式的文件绝对路径/a/b/c/d这样的玩意,那么namenode如何根据你输入的/a/b/c/d这样字符串格式的东西找到对应的文件呢?我们都知道文件对应的inodefile,目录对应inodeDirectory,它们都是inode,abstract class INode
2013-12-25 13:47:51 2715
原创 【HDFS】hdfs文件系统的删除操作
常用的rm和rmr 命令有什么区别,怎么实现的?然后Trash是啥,通过1.0.3的代码研究一下。elif [ "$COMMAND" = "fs" ] ; then CLASS=org.apache.hadoop.fs.FsShell HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"elif [ "$COMMAND" = "dfs" ] ;
2013-12-25 12:24:22 11573
原创 【Mapred】 JobTracker 内部类RecoveryManager简介(下)
public void recover() { if (!shouldRecover()) { // clean up jobs structure jobsToRecover.clear(); return; }//如果没有需要重跑的作业,或者没有配置作业恢复机制,那么把RecoveryManager保存的jobID全部清空
2013-12-24 19:25:07 785
原创 【Mapred】 JobTracker 内部类RecoveryManager简介(上)
Hadoop1.0.3版本一直知道jobtracker有作业调度功能,任务恢复功能,作业重跑功能等,那么jobtracker是如何实现的呢?今天通过对jobtracker启动过程的跟踪,来一探究竟。jobtracker有一个内部类叫做RecoveryManager ,同时jobtracker有个私有成员:RecoveryManager recoveryManager;在初始化的
2013-12-23 19:24:08 592
原创 hadoop提供的一种程序驱动管理程序
hadoop开发包里一般都携带一些基准测试程序,这是一批程序,如何管理好大型项目的测试程序,做一个方便好用的工具呢?我们都知道,java程序的基本单位是类,程序的入口是指定类的main方法,有时候可能会通过抽象工厂方法实现程序的适配,这种方式当然也是行之有效的,但是有时候更简单的方式是控制程序启动的入口。hadoop的基准测试程序就是这样做的。首先给每一个测试程序起一个
2013-12-04 12:32:07 2043
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人