自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

坐禅小和尚的专栏

记录自己在学习当中的一些心得,不一定正确,但重在分享

  • 博客(15)
  • 问答 (1)
  • 收藏
  • 关注

原创 Hadoop源码分析FSNamesystem几个重要的成员变量

FSNamesystem中有几个非常重要的变量,对于理解NameNode的实现具有重要意义。下面,我们看一下这几个变量和他的作用。lblocksMap:blocksMap是类BlocksMap的实例,其代表了Block→{INode、datanodes}的映射。具体代表了每一个Block在哪一个DataNode上存储。datanodeMap:datanodeMap是类Navigable

2012-09-27 00:15:32 2812

原创 Hadoop源码分析HDFS ClientProtocol——getBlockLocations

Class ClientProtocol是HDFS客户端与NameNode之间的接口。Client通过调用ClientProtocol的方法完成与NameNode之间的交互。本文分析方法getBlockLocations。该方法的方法声明如下:public LocatedBlocks getBlockLocations(String src,long offset, long length)t

2012-09-27 00:13:09 2854

原创 Hadoop源码分析HDFS Client向HDFS写入数据的过程解析

Client以数据块(Block)为单位进行数据存储。按照我们一般的理解,Client向HDFS写入数据,首先需要向NameNode申请Block;申请Block完成后,申请DataNode(包括备份存储的DataNode);二者完成后,Clent进行与DataNode之间的数据存储。我们知道NameNode之中维护两张非常重要的表,一张是filename→blocks的映射;另外一张是b

2012-09-24 21:08:44 1383 1

原创 ZooKeeper基本理解

ZooKeeper主要是为分布式应用提供协同服务(A Distributed Coordination Service for Deistributed Applications)。我们可以考虑一下,如果让我们完成一个协同服务的设计应该如何完成呢?是不是可以有这么一个思路:可以先设定一个协同服务器,被协同的子节点定期的向该服务器汇报该节点的状态;当其他节点想要查询其他节点的状态时可以向协同服务器去

2012-09-24 21:05:49 1124

原创 HDFS源码分析——格式化

HDFS NameNode保存了两个元数据文件fsimage和edits。如果想要对文件系统进行格式化,应该进行哪些操作呢?按照我们的理解,首先要把已有的fsimage和edits全部删除;其次,重新建立新的fsimage和edits;最后,通知所有的datanode,命令其删除相应的数据。通过阅读HDFS的源程序,我们得知,前两部是HDFS已经实现的;但是,其好像没有通知datanode进行数据

2012-09-24 21:02:05 1192 2

原创 HDFS源码分析——RPC Client实现

通俗来讲RPC(Remote Procedure Call)就是调用远程的过程或者方法,既然涉及到远程,必然会有C/S架构,即client和server。下面首先来看一下Client端的实现。为实现远程方法调用,最重要的就是跟远程服务器进行连接,然后不断的传输客户端想要调用的方法,包括方法的参数等。为此Client有两个最重要的变量与之一一对应,Connection和Call。其中,Conne

2012-09-24 20:56:41 717

原创 Hadoop RPC整个使用流程——以DataNode向NameNode注册为例

Hadoop RPC整个使用流程——以DataNode向NameNode注册为例在HDFS实现过程中DataNode class中有一个成员变量namenode,其类型是DatanodeProtocol。namenode可以看作是远程NameNode服务器的一个代理,因为NameNode本身也是DatanodeProtocol接口的具体实现;DataNode通过调用namenode对象的方法与

2012-09-24 20:55:30 705

原创 MapReduce作业提交源码分析

MapReduce作业提交源码分析我们在编写MapReduce程序的时候,首先需要编写Map函数和Reduce函数。完成mapper和reducer的编写后,进行Job的配置;Job配置完成后,调用Job.submit()方法完成作业的提交。那我们思考一下,Job最终如何完成作业(job)的提交呢?粗略想一下,Job必然需要通过某种方式连接到JobTracker,因为只有这样才能将job提交到

2012-09-24 20:53:55 932

原创 Hive基础知识学习

Hive基础知识学习1.Hive是什么按照我的理解,Hive是一个中间工具。它的主要作用是将HQL(Hive Query Language)转换为一系列的MapReduce Job,利用Hadoop框架对数据进行类SQL处理。他的主要功能是在Hadoop框架上提供一个类SQL中间层,简化在Hadoop框架上实现SQL功能程序的编写。请思考一下,为了实现这个功能,Hive应该具备什么功能

2012-09-24 20:51:01 964

原创 Hive安装配置

1.Hive安装Hive的安装配置比较简单。首先,确定HDFS和MapReduce已经正确安装并且可以运行。首先,到Apache下载Hive,本次安装使用的Hive版本为hive-0.9.0。下载完成后,将hive解压到你想安装的目录。tar zxf  hive-0.9.0.tar.gz解压缩完成后,配置Hive环境变量,在这里是在/etc/profile中实现的。export

2012-09-24 20:48:24 1079

原创 Hadoop伪分布式集群环境配置

该文档是对自己在虚拟机环境下进行Hadoop集群环境进行配置的总结。首先安装环境是:宿主机:Windows 7 旗舰版虚拟机:VirtualBox 4.2.0虚拟机操作系统:opensuse 12.2Hadoop:1.0.31.虚拟机安装首先进行VirtualBox和opensuse在VirtualBox中的安装,比较简单,不再做详细的介绍。小技巧:在VirtualBo

2012-09-24 20:45:21 1227

原创 Hadoop常用配置总结

NameNode管理界面:http://namenode:50070JobTracker管理界面:http://jobtracker:50030Hadoop守护进程日志存放目录:可以用环境变量${Hadoop_LOG_DIR}进行配置,默认情况下是${HADOOP_HOME}/logs1.配置类型节点的环境变量在配置集群的时候可以在conf/hadoop-env.sh配置不同节点的

2012-09-24 20:43:21 7193

Hadoop常用配置总结

NameNode管理界面:http://namenode:50070JobTracker管理界面:http://jobtracker:50030Hadoop守护进程日志存放目录:可以用环境变量${Hadoop_LOG_DIR}进行配置,默认情况下是${HADOOP_HOME}/logs1.配置类型节点的环境变量在配置集群的时候可以在conf/hadoop-env.sh配置...

2012-09-20 21:21:25 146

Client向HDFS写入数据的过程解析

Client以数据块(Block)为单位进行数据存储。按照我们一般的理解,Client向HDFS写入数据,首先需要向NameNode申请Block;申请Block完成后,申请DataNode(包括备份存储的DataNode);二者完成后,Clent进行与DataNode之间的数据存储。我们知道NameNode之中维护两张非常重要的表,一张是filename→blocks的映射;另外一...

2012-09-20 21:19:34 403

Hadoop RPC整个使用流程——以DataNode向NameNode注册为例

在HDFS实现过程中DataNode class中有一个成员变量namenode,其类型是DatanodeProtocol。namenode可以看作是远程NameNode服务器的一个代理,因为NameNode本身也是DatanodeProtocol接口的具体实现;DataNode通过调用namenode对象的方法与远程NameNode进行交互。  下面看一下namenode变量在DataNode当...

2012-09-19 22:26:23 219

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除