![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 69
theking119
这个作者很懒,什么都没留下…
展开
-
Hadoop 学习总结之一:HDFS简介
一、HDFS的基本概念 1.1、数据块(block) HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。 1.2、元数据节点(Namenode)和数转载 2011-11-15 14:12:21 · 419 阅读 · 0 评论 -
Hadoop学习总结之三:Map-Reduce入门
1、Map-Reduce的逻辑过程 假设我们需要处理一批有关天气的数据,其格式如下: 按照ASCII码存储,每行一条记录每一行字符从0开始计数,第15个到第18个字符为年第25个到第29个字符为温度,其中第25位是符号+/- 0067011990999991950051507+0000+ 0043011990999991950051512+0022+转载 2011-11-04 19:05:00 · 310 阅读 · 0 评论 -
HDFS读写过程解析
Hadoop学习总结之二:HDFS读写过程解析 一、文件的打开 1.1、客户端 HDFS打开一个文件,需要在客户端调用DistributedFileSystem.open(Path f, int bufferSize),其实现为: public FSDataInputStream open(Path f, int bufferSize) throws I转载 2011-11-04 19:01:34 · 523 阅读 · 0 评论 -
自定义的RPC的Java实现
自定义的RPC的Java实现 博客分类: Java JavaSocketHadoopGooglethread 在看hadoop的源代码的时候,看到hadoop实现了一个自定义的RPC,于是有了自己写代码实现RPC的想法。 RPC的全名Remote Process Call,即远程过程调用。使用RPC,可以像使用本地的程序一样使用远程服务器上的程序。下面是一个转载 2011-11-04 18:53:59 · 632 阅读 · 0 评论 -
使用java api操作Hadoop文件
1. 概述 2. 文件操作 2.1 上传本地文件到hadoop fs 2.2 在hadoop fs中新建文件,并写入 2.3 删除hadoop fs上的文件 2.4 读取文件 3. 目录操作 3.1 在hadoop fs上创建目录 3.2 删除目录 3.3 读取某个目录下的所有文件 4. 参考资料接代码下载 . 概述转载 2011-11-04 18:52:12 · 572 阅读 · 0 评论 -
HDFS文件存取编程
HDFS文件存取编程 2010-06-10 分类:技术1、接口说明 Hadoop文件系统由一个namenode节点和N个datanode节点组成,每个结点均是一台普通的计算机。在使用上同我们熟悉的单机上的文件系统非常类似,一样可以建目录,创建,复制,删除文件,查看文件内容等。 客户端要实现对Hadoop文件系统的读写,要配置目标文件的绝对路径,来连接H转载 2011-11-04 18:50:49 · 583 阅读 · 0 评论 -
Hadoop学习总结之五:Hadoop的运行痕迹
在使用hadoop的时候,可能遇到各种各样的问题,然而由于hadoop的运行机制比较复杂,因而出现了问题的时候比较难于发现问题。 本文欲通过某种方式跟踪Hadoop的运行痕迹,方便出现问题的时候可以通过这些痕迹来解决问题。 一、环境的搭建 为了能够跟踪这些运行的痕迹,我们需要搭建一个特殊的环境,从而可以一步步的查看上一节提到的一些关键步骤所引起的变化。 我们首先搭建一个拥有转载 2011-11-04 19:07:42 · 605 阅读 · 0 评论 -
HDFS简介
Hadoop 学习总结之一:HDFS简介 一、HDFS的基本概念 1.1、数据块(block) HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。转载 2011-11-04 19:03:31 · 315 阅读 · 0 评论 -
Hadoop学习总结之四:Map-Reduce的过程解析
一、客户端 Map-Reduce的过程首先是由客户端提交一个任务开始的。 提交任务主要是通过JobClient.runJob(JobConf)静态函数实现的: public static RunningJob runJob(JobConf job) throws IOException { //首先生成一个JobClient对象 JobClie转载 2011-11-04 19:06:32 · 291 阅读 · 0 评论 -
hadoop的心跳回忆
hadoop的集群是基于master/slave模式,namenode和jobtracker属于master,而datanode/tasktracker属于slaves。master只有一个,而slaves有多个。 namenode与datanode之间的通信,jobtracker与tasktracker直接的通信,都是通过“心跳”完成的。 以前看过hadoop心跳原理的源代码,今转载 2011-11-04 18:55:36 · 523 阅读 · 0 评论 -
HDFS中的通信协议
通过对org.apache.hadoop.ipc包中,Hadoop实现了基于IPC模型的RPC机制,可以不需要像Java中实现的RMI机制一样,在RPC调用的C/S两端分别创建Stub和Skeleton,而是通过一组协议来进行RPC调用就可以实现通信。这主要是由于Hadoop所采用的序列化机制简化了RPC调用的复杂性。Hadoop定义了自己的通信协议,这些协议都是建立在TCP/IP协议之上的,规范转载 2011-11-07 22:17:13 · 1209 阅读 · 0 评论