hadoop源码分析 jobsplit

原创 2013年12月03日 15:51:43

ClusterMetrics.java类:

 Status information on the current state of the Map-Reduce cluster.

 * Mapreduce集群的当前状态
 * 提供给client如下信息:
 * 集群大小
 * 黑名单和过期的tracker
 * 集群的容量
 * 当前Map reduce占用
 * 当前运行的map reduce 个数

 * job提交的数目


JobSplit.java类:

 * This class groups the fundamental classes associated with
 * reading/writing splits. The split information is divided into
 * two parts based on the consumer of the information. The two
 * parts are the split meta information, and the raw split 
 * information. The first part is consumed by the JobTracker to
 * create the tasks' locality data structures. The second part is
 * used by the maps at runtime to know what to do!
 * These pieces of information are written to two separate files.
 * The metainformation file is slurped by the JobTracker during 
 * job initialization. A map task gets the meta information during
 * the launch and it reads the raw split bytes directly from the 
 * file.
 * 
 * 这个类 分组基础的读 写分片类,分片信息被分割成两个部分,基于数据信息。
 * 第一个部分是 jobtracker消耗来创建任务的本地数据结构。第二部分被maps用来知道要做什么
 * 这些碎片信息被写进两个分割的文件

Hadoop-2.4.1源码分析--HDFS读取文件

在上一篇文章《Hadoop源码分析--FileSystem的创建过程》中(阅读地址-----------------------------------------------------http:/...
  • u010010428
  • u010010428
  • 2016年05月12日 18:19
  • 1647

Hhadoop-2.7.0中HDFS写文件源码分析(二):客户端实现(1)

一、综述      HDFS写文件是整个Hadoop中最为复杂的流程之一,它涉及到HDFS中NameNode、DataNode、DFSClient等众多角色的分工与合作。      首先上一段代码,客...
  • lipeng_bigdata
  • lipeng_bigdata
  • 2016年12月19日 16:12
  • 1308

Hadoop源代码分析(完整图文版) part 1

Hadoop源代码分析(一) 关键字: 分布式 云计算  Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。  GoogleCluster: ht...
  • ssrc0604hx
  • ssrc0604hx
  • 2014年11月26日 15:39
  • 5314

Hadoop源代码分析(完整版)

Hadoop源代码分析(一) 关键字: 分布式云计算 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。 GoogleCluster:...
  • huoyunshen88
  • huoyunshen88
  • 2013年02月25日 23:20
  • 27624

Hadoop源码解析与开发实战视频教程

课程介绍: 整套课程从hadoop入门开始,由浅入深,内置“hadoop源码解析与企业应用开发实战”,“Hive开发实战”,“Hbase开发实战”,“Spark,mahout,sqoop,sto...
  • jimei1912
  • jimei1912
  • 2017年03月06日 14:28
  • 342

hadoop 2.7.3 源码分析(三):hadoop远程调试

摘要调试是学习代码流程,查找BUG,修复错误的重要方法,本文内容主要是讲述在前两篇内容的基础上如何配置Idea和hadoop以使其可以使用远程调试(打断点、逐行运行等)功能Idea 设置首先需要将ha...
  • alphags
  • alphags
  • 2016年11月26日 15:03
  • 962

hadoop 2.7.3 源码分析(一):环境搭建

序回头想想自己学习大数据相关的技术已经有很长的时间了,在这段时间里主要学习了hadoop、zookeeper、hbase、kafka、flume、spark、storm等等,有一些在工作当中使用到了(...
  • alphags
  • alphags
  • 2016年11月26日 11:50
  • 1594

hadoop + hbase架构和源码分析

Hbase原理、基本概念、基本架构 深入HBase架构解析(一) 深入HBase架构解析(二) HBase 系统架构 HBase之数据模型(DataModel) hbase数据模型 HBase 在...
  • lizhitao
  • lizhitao
  • 2016年09月11日 01:28
  • 2038

从HadoopRDD生成各个阶段的RDD 源码详解

1、什么是RDD? 上一章讲了Spark提交作业的过程,这一章我们要讲RDD。简单的讲,RDD就是Spark的input,知道input是啥吧,就是输入的数据。 RDD的全名是Resilient ...
  • shenxiaoming77
  • shenxiaoming77
  • 2017年02月01日 00:14
  • 402

hadoop源代码分析(完整版)

Hadoop源代码分析(一) Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。  GoogleCluster:http://researc...
  • senvil
  • senvil
  • 2015年10月05日 18:27
  • 1418
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:hadoop源码分析 jobsplit
举报原因:
原因补充:

(最多只允许输入30个字)