- 博客(8)
- 资源 (24)
- 问答 (1)
- 收藏
- 关注
原创 MapReduce工作原理
Map-Reduce框架的运作完全基于对,即数据的输入是一批对,生成的结果也是一批对,只是有时候它们的类型不一样而已。Key和value的类由于需要支持被序列化(serialize)操作,所以它们必须要实现Writable接口,而且key的类还必须实现WritableComparable接口,使得可以让框架对数据集的执行排序操作。一个Map-Reduce任务的执行过程以及数据输入输出的类型...
2010-06-30 13:45:25 133
原创 Hadoop开发常用的InputFormat和OutputFormat
Hadoop中的Map Reduce框架依赖InputFormat提供数据,依赖OutputFormat输出数据;每一个Map Reduce程序都离不开他们。Hadoop提供了一系列InputFormat和OutputFormat方便开发,本文介绍几种常用的。TextInputFormat用于读取纯文本文件,文件被分为一系列以LF或者CR结束的行,key是每一行的位置(偏移量,Long...
2010-06-30 13:39:55 243
原创 Eclipse下hadoop插件的配置
1、首先打开/hadoop-0.19.0/contrib/ 会发现有一个eclipse-plugin【简称EP】.这个插件就和IBM所说的插件是一样的。现在我们开始下一步的配置吧。2、直接把EP放到eclipse/plugins下。然后重启eclipse.现在你会发现 window/show-view 多了一个一项(MapReduce Tools),这个正是我们所需要的。3、找到MapRe...
2010-06-29 14:16:47 115
原创 Mapper和Reducer的分析
1.reduce和map类似,每个task内部可以共享静态类属性,每个task可能会多次调用reduce()函数,但每个key只对应某节点上的某个task的reduce()函数的一次执行2.多个tasks之间不能共享静态类属性,即使在同一台机器上,因为是以进程方式运行3.一个key不可能被两个tasks拆分执行,不管是否在相同的节点上。4. Hadoop Map/Reduc...
2010-06-29 10:46:37 778
原创 MapReduce的存在
MapReduce是 Google的一项重要技术,它是一个编程模型,用以进行大数据量的计算。对于大数据量的计算,通常采用的处理手法就是并行计算。至少现阶段而言,对许多开发人员来说,并行计算还是一个比较遥远的东西。MapReduce就是一种简化并行计算的编程模型,它让那些没有多少并行计算经验的开发人员也可以开发并行应用。在我看来,这也就是MapReduce的价值所在,通过简化编程模型,降低了开发并行...
2010-06-29 09:47:57 95
原创 namenode与secondaryNamenode的联系
NameNode将对文件系统的改动追加保存到本地文件系统上的一个日志文件(edits)。当一个NameNode启动时,它首先从一个映像文件(fsimage)中读取HDFS的状态,接着应用日志文件中的edits操作。然后它将新的HDFS状态写入(fsimage)中,并使用一个空的 edits文件开始正常操作。因为NameNode只有在启动阶段才合并fsimage和edits,所以一段时间后日志文件可...
2010-06-28 10:09:59 206
原创 理解java中的反射机制
一、反射的概念 :反射的概念是由Smith在1982年首次提出的,主要是指程序可以访问、检测和修改它本身状态或行为的一种能力。这一概念的提出很快引发了计算机科学领域关于应用反射性的研究。它首先被程序语言的设计领域所采用,并在Lisp和面向对象方面取得了成绩。其中LEAD/LEAD++ 、 OpenC++ 、MetaXa和OpenJava等就是基于反射机制的语言。最近,反射机制也被应用到了视...
2010-06-28 09:14:55 83
提高hadoop的mapreduce job效率笔记
2011-08-07
树形菜单 -- 如何调用dtree里的函数来写树形菜单
2008-11-28
运行struts2.0报这个错?麻烦大家看下
2009-04-14
TA创建的收藏夹 TA关注的收藏夹
TA关注的人