- 博客(5)
- 收藏
- 关注
原创 Hadoop-2.4.1源码分析--MapReduce作业切片(Split)过程
在上一篇文章《Hadoop源码分析--MapReduce作业(job)提交源码跟踪》中,我介绍了Job的提交过程源码,介绍的最后一个方法是submitJobInternal(Jobjob, Cluster cluster),该方法向系统提交作业(该方法不仅设置mapper数量,还执行了一些其它操作如检查输出格式等),在该方法的第394行,涉及到如下一个方法--writeSplits(),该方法
2016-05-21 16:43:51 5301
原创 Hadoop-2.4.1源码分析--MapReduce作业(job)提交源码跟踪
首先,在自己写的MR程序中通过org.apache.hadoop.mapreduce.Job来创建Job。配置好之后通过waitForCompletion()方法来提交Job。Hadoop版本是2.4.1。 进入waitForCompletion()方法,在判断状态state可以提交Job后,执行submit()方法。monitorAndPrintJob()方法
2016-05-15 14:01:18 3494 2
原创 Hadoop-2.4.1源码分析--HDFS读取文件
在上一篇文章《Hadoop源码分析--FileSystem的创建过程》中(阅读地址-----------------------------------------------------http://blog.csdn.net/u010010428/article/details/51378378),我们分析了HDFS的DistributedFileSystem对象的创建过程,之后就可以按照HD
2016-05-12 18:19:11 4594
原创 Hadoop-2.4.1源码分析--FileSystem的创建过程
HDFS,即Hadoop Distributed File System,为Hadoop的分布式文件系统。其实除了HDFS外,hadoop还支持其它类型的文件系统,比如FTP、本地文件系统等,而这些文件系统都扩展自抽象基础类FileSystem,该抽象类类提供了丰富的方法用于对文件系统进行操作,比如创建目录、删除文件、重命名等。无论使用的是HDFS还是本地文件系统,或者其它所支持的文件系统,推荐在
2016-05-11 22:49:23 2817 1
原创 Hadoop RPC机制-原理篇
RPC是Hadoop的基础组件,提供分布式环境下的对象调用功能。之前用了三天时间分析与测试RPC,目的是想弄清楚它的整个运行机制。 概括的说,RPC采用客户机/服务器模式。请求程序就是一个客户机,而服务提供程序就是一个服务器。首先,客户机调用进程发送一个有进程参数的调用信息到服务进程,然后等待应答信息。在服务器端,进程保持睡眠状态直到调用信息的到达为止。当一个调用信息到达,服务器获
2016-05-08 16:33:59 4241
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人