![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 81
july_2
这个作者很懒,什么都没留下…
展开
-
使用哪种压缩格式
转载 2013-02-01 15:10:26 · 346 阅读 · 0 评论 -
zookeeper使用和原理探究(一)
zookeeper介绍 zookeeper是一个为分布式应用提供一致性服务的软件,它是开源的Hadoop项目中的一个子项目,并且根据google发表的论文来实现的,接下来我们首先来安装使用下这个软件,然后再来探索下其中比较重要一致性算法。 zookeeper安装和使用 zookeeper的安装基本上可以按照 http://hadoop.apache.org/zookeeper/doc转载 2013-12-12 09:56:59 · 1011 阅读 · 0 评论 -
hadoop运行第三方jar
mapreduce程序中,总会通过job.setJarByClass方法指定要我们自己的类,由此JobClient通过job.getJar()得到该jar文件,并将其copy到指定目录中(setJarByClass这里就不细讲了)。到此jobClient完成了资源复制过程,这些资源可供JobTracker和TaskTracker使用JobClient提交job,JobTracker以及TaskTr转载 2013-06-13 18:02:54 · 4792 阅读 · 0 评论 -
NameNode的format操作做了什么
在Hadoop的HDFS部署好了之后并不能马上使用,而是先要对配置的文件系统进行格式化。在这里要注意两个概念,一个是文件系统,此时的文件系统在物理上还不存在,或许是网络磁盘来描述会更加合适;二就是格式化,此处的格式化并不是指传统意义上的本地磁盘格式化,而是一些清除与准备工作。本文接下来将主要讨论NameNode节点上的格式化。 我们都知道,NameNode主要被用来管理整个分布转载 2013-08-16 16:19:45 · 504 阅读 · 0 评论 -
HDFS中namenode部分概述(一)
关于hdfs源码的阅读,我这个小菜鸟觉得有这么两种方式去读,一是抓住它关键的数据结构,知道了他们是干什么用的,剩下的就是一些围着他们转的操作了;二是跟踪执行过程的流程式阅读,以mkdir为例,从client应用发出mkdir请求到传递给namenode,再在datanode上执行,这么一个过程详细地跟踪下来,就理解了一大片。两种路子没有孰优孰劣,配合使用或许更有效。本篇先从数据结构的角度分享一点自转载 2013-08-16 16:14:39 · 758 阅读 · 0 评论 -
HDFS中的通信协议
HDFS中的通信协议 通过对org.apache.hadoop.ipc包中,Hadoop实现了基于IPC模型的RPC机制,可以不需要像Java中实现的RMI机制一样,在RPC调用的C/S两端分别创建Stub和Skeleton,而是通过一组协议来进行RPC调用就可以实现通信。这主要是由于Hadoop所采用的序列化机制简化了RPC调用的复杂性。Hadoop定义了自己的通信协议,这些协议都是建转载 2013-08-16 15:13:39 · 1995 阅读 · 0 评论 -
HDFS集群的启动(1)——概述
众所周知,在HDFS集群中,主要有两类节点,即NameNode和DataNode节点,确切的说,一个NameNode节点,其它的所有DataNode节点。那么,HDFS集群的启动就自然而然的可以看做是一个NameNode节点的启动和所有其它的DataNode节点的启动问题了。在这里我要不得不提的是,NameNode和DataNode有各自不同的启动方式,其中,NameNode的启动方式有:form转载 2013-08-16 16:37:51 · 605 阅读 · 0 评论 -
HDFS中的文件open操作
HDFS的文件open操作,实际上就是执行的是DistributedFileSystem的open(Path,int)函数,其中第一个函数就是文件的路径,第二个函数表示文件流的缓存大小,该函数返回的是DFSDataInputStream流。在这里,我不得不提的一点是,DFSDataInputStream是支持用户随机读的,之所以提及这一点,是因为我要在后面详细地介绍DFSDataInputStre转载 2013-08-16 16:30:48 · 643 阅读 · 0 评论 -
HDFS中DistributedFileSystem的创建
说白了,DistributedFileSystem就是HDFS的客户端API,而且严格说起来,DistributedFileSystem算是一种瘦客户端,因为它没有缓存任何关于HDFS中的文件及文件的元数据信息。可能这话我说的有点绝对,但至少在目前的最新版本中确实是这样的,至于会不会在以后的HDFS版本中为客户端加入缓存就不得而知了。反正,Apache Hadoop的官网上并没有任何迹象表明他们将转载 2013-08-16 16:25:30 · 816 阅读 · 0 评论 -
HDFS的架构要点
HDFS的架构采用master/slave模式,一个HDFS集群是由一个Namenode和多个Datanode组成。 在HDFS集群中,只有一个Namenode结点。Namenode作为HDFS集群的中心服务器,主要负责: 1、管理HDFS集群中文件系统的名字空间(Namespace),例如打开文件系统、关闭文件系统、重命名文件或者目录等;另外,对任何请求对文件系统名字转载 2013-08-16 14:37:11 · 555 阅读 · 0 评论 -
Hadoop安装
本文主要是以安装和使用 hadoop-0.12.2 为例,指出在部署Hadoop的时候容易遇到的问题以及如何解决。硬件环境 共有3台机器,均使用的centos4.4系统,Java使用的是jdk1.5.0。IP配置如下: dbrg-1:202.197.18.72 dbrg-2:202.197.18.73 dbrg-3:202.197.18.74 这里有一点需要强调的就是,务必要确保每台转载 2013-02-20 16:35:06 · 418 阅读 · 0 评论 -
zookeeper配置文件详解
配置参数详解(主要是%ZOOKEEPER_HOME%/conf/zoo.cfg文件) 参数名 说明 clientPort 客户端连接server的端口,即对外服务端口,一般设置为2181吧。 dataDir 存储快照文件snapshot的目录。默认情况下,事务日志也会存储在这里。建议同时配置参数dataLogDir转载 2013-12-12 11:32:27 · 10028 阅读 · 1 评论