Hadoop
文章平均质量分 69
dongtianzhe
这个作者很懒,什么都没留下…
展开
-
Hadoop The Definitive Guide 2nd Edition 读书笔记4
MapReduce工作流程: [b]job提交流程:[/b] [img]http://dl.iteye.com/upload/attachment/366883/b2e3cd06-379d-32a6-ae94-1b5256509ad8.png[/img] 1.client节点在提交job之前,先要求JobTracker分配一个新的job id; 2.检查输出路径是否已经存在,如...原创 2010-12-15 14:05:32 · 159 阅读 · 0 评论 -
Hadoop The Definitive Guide 2nd Edition 读书笔记5
之前我们学习了MapReduce的执行过程,下面我们看一下MapReduce执行过程中输入和输出所涉及到的数据结构。 [b]输入格式:[/b] 通过之前的学习,我们知道在执行mapreduce之前,原始数据被分割成若干split,每个split作为一个map任务的输入,在map执行过程中split会被分解成一个个记录(key-value对),map会依次处理每一个记录。 spli...原创 2010-12-17 14:30:37 · 156 阅读 · 0 评论 -
ubuntu9.04+hadoop0.20.2+eclipse环境搭建
看hadoop也有一段时间了,今天花了一些时间把整个开发环境搭起来了,期间遇到了不小的麻烦,经过查阅大量资料,终于搞定了! 由于我的电脑配置不好,所以在实验室ubuntu服务器上搭建了单机的环境,然后再我的电脑用eclipse上传编写好的程序。 [b]1.安装JDK6[/b] 这个不用多说,下一个bin文件,修改一下权限,配置一下环境变量就可以了。 [b]2. 配置SSH[...原创 2010-11-18 20:47:28 · 119 阅读 · 0 评论 -
MapReduce执行过程
在研究hadoop之前,有必要将hadoop两个核心技术HDFS和MapReduce了解一下,做好的资料当然就是google的两篇论文了。现将Hadoop中MapReduce的执行流程总结如下: 用户提交的称为Job,每个Job会被切分成很多数据集,每个数据集作为Map的输入,称为一个task。 InputFormat将输入的数据集切割成小数据集 InputSplits, 每一个 In...原创 2010-11-19 13:21:19 · 131 阅读 · 0 评论 -
Hadoop The Definitive Guide 2nd Edition 读书笔记1
Hadoop The Definitive Guide 2nd Edition是我读的关于hadoop的第一本书,对于处于新手阶段的我,这本书对我的帮助很大,这本书从hadoop的起源开始逐步讲解hadoop,可能是因为作者也是hadoop项目中的一个成员吧,对于hadoop讲解的十分到位。好记性不如烂笔头,今天开始做些笔记,方便日后查看。 第一章主要介绍了Hadoop的起源和一些其他分布式...原创 2010-12-02 13:34:05 · 200 阅读 · 0 评论 -
Hadoop The Definitive Guide 2nd Edition 读书笔记2
第三章介绍的是Hadoop的分布式文件系统HDFS相关的内容。主要介绍HDFS组成部分和操作接口。 [b]HDFS的架构:[/b] HDFS采用成熟的Master/Slaves架构,其中Master称为Namenode,Slave称为Datanode。Namenode存储文件系统的元数据信息,它维护者整个文件的系统的目录树和所有文件的文件和索引目录,他们以命名空间镜像(fsimage)...原创 2010-12-03 21:01:31 · 140 阅读 · 0 评论 -
Hadoop The Definitive Guide 2nd Edition 读书笔记3
第四章是介绍Hadoop的IO系统,前面介绍的是数据完整性的方案,无外乎就是校验和等机制,接着介绍的是hadoop中的压缩机制,这两块内容后续仔细阅读。 [b]串行化:[/b] Hadoop的进程间通信和持久化保存的时候都要用到串行化的技术。首先看一下Hadoop的进程间通信的机制。Hadoop中进程间通信时通过自己的一套RPC机制来实现的,节点间的通信格式由protocal来决定。 ...原创 2010-12-04 20:11:39 · 166 阅读 · 0 评论