Hadoop
文章平均质量分 61
迷糊的佳佳
这个作者很懒,什么都没留下…
展开
-
hbase介绍
来源:http://www.tbdata.org/archives/1509一、简介history started by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop转载 2013-02-05 09:31:13 · 650 阅读 · 0 评论 -
Protocol Buffers 编译安装使用Protoc2.5 on Centos6.4
下载地址:https://code.google.com/p/protobuf/downloads/list我下载的是protobuf-2.5.0.tar.gz解压:$ tar -xzvf protobuf-2.5.0.tar.gz编译:$ cd protobuf-2.5.0$ ./configure$ make$ make check安装:$ make i原创 2014-02-14 16:40:33 · 5990 阅读 · 3 评论 -
编译运行HBase源码,安装hadoop集群
node1:namenode, datanode, jobtracker, tasktracker,zookeeper, hmaster, hregionservernode2:datanode, tasktracker, hregionserver Install maven, edit /etc/profile:export M2_HOME=/home/apac原创 2014-02-21 15:50:47 · 2714 阅读 · 1 评论 -
CentOS6.4安装pydoop
1.download hadoop(http://mirror.nexcess.net/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz)2. tar -xzvf hadoop-1.2.1.tar.gz3. export HADOOP_HOME=/opt/hadoop-1.2.1 export JAVA_HOME=/usr原创 2014-02-08 14:37:04 · 3252 阅读 · 0 评论 -
Hive SQL解析/执行计划生成流程分析
Hive SQL解析/执行计划生成流程分析Hive有三种用户接口:cli (Command line interface)bin/hive或bin/hive –service cli命令行方式(默认)hive-server/hive-server2bin/hive –service hiveserver 或bin/hive –转载 2013-12-24 22:39:24 · 2385 阅读 · 0 评论 -
Spark & Shark & Tachyon 简介
Spark是一个高效的分布式计算系统,相比Hadoop,它在性能上比Hadoop要高100倍。Spark提供比Hadoop更上层的API,同样的算法在Spark中实现往往只有Hadoop的1/10或者1/100的长度。Shark类似“SQL on Spark”,是一个在Spark上数据仓库的实现,在兼容Hive的情况下,性能最高可以达到Hive的一百倍。 Tachyon是一个高原创 2013-12-02 21:17:48 · 4176 阅读 · 2 评论 -
深入理解HBase Memstore
原文出处:http://shitouer.cn/2013/02/configuring-hbase-memstore-what-you-should-know/MemStore是HBase非常重要的组成部分,深入理解MemStore的运行机制、工作原理、相关配置,对HBase集群管理以及性能调优有非常重要的帮助。HBase Memstore首先通过简单介绍HBa转载 2013-11-27 20:53:03 · 964 阅读 · 1 评论 -
HBase Scanner
一个region有一个regionscanner,一个regionscanner维持一个 PriorityQueue,包含storescanner;一个storescanner维持一个 PriorityQueue,包含一个memstorescanner和多个storefilescannerstore是一个family。regionscanner扫描一个region, 包含多个store原创 2013-11-19 21:16:15 · 4021 阅读 · 1 评论 -
Apache Tez
参考资料:官方blog:http://hortonworks.com/blog/author/arun_murthy/svn源码:http://hortonworks.com/blog/introducing-tez-faster-hadoop-processing/看到一篇很不错的文章:http://dongxicheng.org/mapreduce-nextgen/原创 2013-04-16 09:42:07 · 14998 阅读 · 6 评论 -
Apache S4
最近想研究一下流处理模型,就顺便看看Apache S4Apache S4是一个常规用途的、分布式的、可伸缩的、容错的、可插入式的平台用于处理联系的无限数据流。Apache S4填补了复杂的专有系统和面向批处理的开源计算平台之间的差距。我们的目标是开发高性能计算平台从应用编程的并行处理系统中固有的复杂性隐藏。Apache S4 已经在 Yahoo 的系统中原创 2013-03-29 16:27:27 · 1208 阅读 · 0 评论 -
分布式发布订阅消息系统 Kafka (A distributed publish-subscribe messaging system)
转自:http://www.oschina.net/translate/kafka-design转载 2014-04-10 16:44:29 · 1186 阅读 · 1 评论