![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
分布式
文章平均质量分 74
iteye_9885
这个作者很懒,什么都没留下…
展开
-
hadoop相关备录
1.map/reduce框架介绍,及实例:http://www.360doc.com/content/10/0803/13/2159920_43357680.shtml 2.hadoop 0.21.0集群配置 http://wenku.baidu.com/view/92cbe435eefdc8d376ee32eb.html 3.[b]WordCount 程序分析及eclipse 运行[/b]...原创 2011-05-27 11:07:52 · 73 阅读 · 0 评论 -
hive速查
hive使用速查手册(HQL) hive, hql 1: http://wiki.apache.org/hadoop/Hive/LanguageManual 介绍基本的hive SQL (HQL) 2:http://wiki.apache.org/hadoop/Hive/GettingStarted hive的GettingStarted手册 3: https://sv...原创 2011-06-06 16:45:57 · 546 阅读 · 0 评论 -
hive入门(转)
Hive入门(转)2011-03-29 15:53Hive 是什么 Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduc...原创 2011-06-06 17:03:32 · 77 阅读 · 0 评论 -
[转载]Hbase和RDBMS的区别
转载:http://www.jdon.com/jivejdon/thread/38244 最近因为项目原因,研究了Cassandra,Hbase等几个NoSQL数据库,最终决定采用HBase。在这里,我就向大家分享一下自己对HBase的理解。 在说HBase之前,我想再唠叨几句。做互联网应用的哥们儿应该都清楚,互联网应用这东西,你没办法预测你的系统什么时候会被多少人访问,你面临的用户到...原创 2011-04-12 09:25:52 · 168 阅读 · 0 评论 -
HBASE入门
转载:http://samuschen.iteye.com/blog/763921 HBase是Hadoop中的一个简单数据库。它与Google的Bigtable特别相似,但也存在许多的不同之处。 数据模型 HBase数据库使用了和Bigtable非常相似的数据模型。用户在表格里存储许多数据行。每个数据行都包括一个可排序的关键字,和任意数目的列。表格是稀疏的,所以同一个表格里的行可...原创 2011-04-12 09:27:06 · 71 阅读 · 0 评论 -
Hive学习笔记3--------Hive与数据库的异同(转自淘宝数据平台团队)
摘要:由于 Hive 采用了 SQL 的查询语言 HQL,因此很容易将 Hive 理解为数据库。其实 从结构上来看,Hive 和数据库除了拥有类似的查询语言,再无类似之处。本文将 从多个方面来阐述 Hive 和数据库的差异。数据库可以用在 Online 的应用中,但是 Hive 是为数据仓库而设计的,清楚这一点,有助于从应用角度理解 Hive 的特性。 查询语言 HQL SQL ...原创 2011-04-25 11:39:43 · 74 阅读 · 0 评论 -
Hadoop配置和使用问题记录
[size=medium][color=blue]最近在本地用cygwin环境来配置和使用hadoop。 遇到了一些问题,下面的这篇文章讲的比较全。 原文地址:http://shutiao2008.iteye.com/blog/319128 如果有补充的,我会补充进去[/color][/size] 关于hadoop如何配置的教程网上已经有不少了,配合hadoop主页上的说明,基本可以顺...原创 2011-04-27 13:20:39 · 82 阅读 · 0 评论 -
bigtable介绍
一个分布式的结构化数据存储系统 地址链接:http://peopleyun.com/?p=744原创 2011-04-28 13:05:11 · 127 阅读 · 0 评论 -
mapreduce的shuffle,partition,combine
[b]shuffle:[/b] 是描述着数据从map端传输到reduce端的过程,而且我们知道的是hadoop的集群环境中,大部分map task和reduce task是在不同的node上执行,主要的开销是网络开销和磁盘IO开销,因此shuffle的主要作用相当于是 1.完整的从map task端传输到reduce task端。 2.跨节点传输数据时,尽可能减少对带...原创 2013-02-20 09:50:22 · 116 阅读 · 0 评论