Hadoop源码分析（一）

最新推荐文章于 2022-06-11 00:06:39 发布

luyaoguimeng

最新推荐文章于 2022-06-11 00:06:39 发布

阅读量394

点赞数 1

分类专栏： Hadoop 文章标签： hadoop 源码

Hadoop 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

转载自：http://www.aboutyun.com/thread-6584-1-1.html
Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。
GoogleCluster： http://research.google.com/archive/googlecluster.html
Chubby：http://labs.google.com/papers/chubby.html
GFS：http://labs.google.com/papers/gfs.html
BigTable：http://labs.google.com/papers/bigtable.html
MapReduce：http://labs.google.com/papers/mapreduce.html
很快，Apache上就出现了一个类似的解决方案，目前它们都属于Apache的Hadoop项目，对应的分别是：
Chubby–>ZooKeeper
GFS–>HDFS
BigTable–>HBase
MapReduce–>Hadoop
目前，基于类似思想的Open Source项目还很多，如Facebook用于用户分析的Hive。
HDFS作为一个分布式文件系统，是所有这些项目的基础。分析好HDFS，有利于了解其他系统。由于Hadoop的HDFS和MapReduce是同一个项目，我们就把他们放在一块，进行分析。
下图是MapReduce整个项目的顶层包图和他们的依赖关系。Hadoop包之间的依赖关系比较复杂，原因是HDFS提供了一个分布式文件系统，该系统提供API，可以屏蔽本地文件系统和分布式文件系统，甚至象Amazon S3这样的在线存储系统。这就造成了分布式文件系统的实现，或者是分布式文件系统的底层的实现，依赖于某些貌似高层的功能。功能的相互引用，造成了蜘蛛网型的依赖关系。一个典型的例子就是包conf，conf用于读取系统配置，它依赖于fs，主要是读取配置文件的时候，需要使用文件系统，而部分的文件系统的功能，在包fs中被抽象了。
Hadoop的关键部分集中于图中蓝色部分，这也是我们考察的重点。
hadoop类

下面给出了Hadoop的包的功能分析。
hadoop类
由于Hadoop的MapReduce和HDFS都有通信的需求，需要对通信的对象进行序列化。Hadoop并没有采用Java的序列化，而是引入了它自己的系统。org.apache.hadoop.io中定义了大量的可序列化对象，他们都实现了Writable接口。实现了Writable接口的一个典型例子如下：

        public class MyWritable implements Writable {      
             // Some data           
             private int counter;      
             private long timestamp;      

             public void write(DataOutput out) throws IOException {      
                 out.writeInt(counter);      
                  out.writeLong(timestamp);      
             }      

             public void readFields(DataInput in) throws IOException {      
                 counter = in.readInt();      
                 timestamp = in.readLong();      
             }      

             public static MyWritable read(DataInput in) throws IOException {      
                 MyWritable w = new MyWritable();      
                 w.readFields(in);      
                 return w;      
             }      
         }

其中的write和readFields分别实现了把对象序列化和反序列化的功能，是Writable接口定义的两个方法。

当我们讨论Hadoop的RPC时，我们会提到RPC上交换的信息，必须是Java的基本类型，String和Writable接口的实现类，以及元素为以上类型的数组。ObjectWritable对象保存了一个可以在RPC上传输的对象和对象的类型信息。这样，我们就有了一个万能的，可以用于客户端/服务器间传输的Writable对象。例如，我们要把上面例子中的对象作为RPC请求，需要根据MyWritable创建一个ObjectWritable，ObjectWritable往流里会写如下信息

对象类名长度，对象类名，对象自己的串行化结果

这样，到了对端，ObjectWritable可以根据对象类名创建对应的对象，并解串行。应该注意到，ObjectWritable依赖于WritableFactories，那存储了Writable子类对应的工厂。我们需要把MyWritable的工厂，保存在WritableFactories中（通过WritableFactories.setFactory）。