Hadoop
Christophe2008
性格开朗,喜欢编程,大学生。
展开
-
HBase的基本概念和我遇到的问题解决方法
最近在学习Hadoop和HBase,现在总结一下HBase的一些基本概念,理解好后使用和开发更容易。HBase是一个分布式的、面向列的数据存储系统。它在HDFS基础上提供随机读写的功能。HBase有如下特性,没有真正的索引,自动分区,线性扩展和对于新结点的自动处理,普通商用硬件支持,容错,批处理。1、HBase逻辑结构行,列,列族和单元格(cell)。行是由许多列组成,那些列按列族分组。列原创 2012-01-08 11:13:50 · 2958 阅读 · 1 评论 -
hadoop作业调优参数整理及原理
1 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性能。如上图所示,每一个map都会对应存在一个内存buffer(MapOutpu转载 2012-01-12 16:59:56 · 923 阅读 · 0 评论 -
HBase机制介绍
一、简介history started by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contrib2007.10 First useable Hbase2008.1 Hadoop be转载 2012-01-18 15:52:11 · 4353 阅读 · 0 评论 -
Hadoop学习笔记一:MapReduce的工作机制
最近开始学习Hadoop和Hbase的相关内容,把自己在看的《Hadoop:The Definitive Guide》里的内容总结一下,有助于理解,也就是温故而知新了。首先是了解Hadoop中的MapReduce工作机制。MapReduce作业的运行过程如图6-1所示。包含4个独立的实体:(1)Client:提交MapReduce作业,(2)JobTracker:协调作业的运行。(3)TaskTr原创 2011-12-25 22:22:19 · 6913 阅读 · 0 评论