2016年05月_Jerry_Fu24

12月 11月 10月 09月 08月 07月 06月 05月 04月

原创 Hadoop-2.4.1源码分析--MapReduce作业切片(Split)过程

在上一篇文章《Hadoop源码分析--MapReduce作业(job)提交源码跟踪》中，我介绍了Job的提交过程源码，介绍的最后一个方法是submitJobInternal(Jobjob, Cluster cluster)，该方法向系统提交作业（该方法不仅设置mapper数量，还执行了一些其它操作如检查输出格式等），在该方法的第394行，涉及到如下一个方法--writeSplits()，该方法

2016-05-21 16:43:51 5301

原创 Hadoop-2.4.1源码分析--MapReduce作业(job)提交源码跟踪

首先，在自己写的MR程序中通过org.apache.hadoop.mapreduce.Job来创建Job。配置好之后通过waitForCompletion()方法来提交Job。Hadoop版本是2.4.1。进入waitForCompletion()方法，在判断状态state可以提交Job后，执行submit()方法。monitorAndPrintJob()方法

2016-05-15 14:01:18 3494 2

原创 Hadoop-2.4.1源码分析--HDFS读取文件

在上一篇文章《Hadoop源码分析--FileSystem的创建过程》中(阅读地址-----------------------------------------------------http://blog.csdn.net/u010010428/article/details/51378378)，我们分析了HDFS的DistributedFileSystem对象的创建过程，之后就可以按照HD

2016-05-12 18:19:11 4594

原创 Hadoop-2.4.1源码分析--FileSystem的创建过程

HDFS，即Hadoop Distributed File System，为Hadoop的分布式文件系统。其实除了HDFS外，hadoop还支持其它类型的文件系统，比如FTP、本地文件系统等，而这些文件系统都扩展自抽象基础类FileSystem，该抽象类类提供了丰富的方法用于对文件系统进行操作，比如创建目录、删除文件、重命名等。无论使用的是HDFS还是本地文件系统，或者其它所支持的文件系统，推荐在

2016-05-11 22:49:23 2817 1

原创 Hadoop RPC机制-原理篇

RPC是Hadoop的基础组件，提供分布式环境下的对象调用功能。之前用了三天时间分析与测试RPC，目的是想弄清楚它的整个运行机制。概括的说，RPC采用客户机/服务器模式。请求程序就是一个客户机，而服务提供程序就是一个服务器。首先，客户机调用进程发送一个有进程参数的调用信息到服务进程，然后等待应答信息。在服务器端，进程保持睡眠状态直到调用信息的到达为止。当一个调用信息到达，服务器获

2016-05-08 16:33:59 4241

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人