hadoop
文章平均质量分 58
muyannian
这个作者很懒,什么都没留下…
展开
-
录信全栈数据库的核心实现原理之将索引创建在hdfs之上
信数据库设计目标是必须能够支撑巨大规模的数据。要想实现这一目标要求其底层存储必须基于分布式文件系统,而绝对不能基于本地文件。Hadoop作为大数据时代的一个标志产物,能否基于HDFS之上创建索引,数据是存储在本地硬盘还是存储在分布式文件系统,对于一个数据库系统有着划时代的意义,是一个区分传统数据库与大数据数据库的一个关键的标致。 录信将索引创建在hdfs之上。 1.使用本地文件系统的各种弊端。 在传统数据库领域,如mysql、oracle、postgresql他们的一个共同特点就是将数据存储在本地,原创 2020-12-09 11:05:11 · 418 阅读 · 0 评论 -
带索引的HIVE
hive的查询跟普通的hadoop mapreduce没有什么大的区别,都是对原始数据的暴力扫描,如果能够像数据库那样,使用索引,那么数据扫描的速度将会大幅度提升 上次在mapreduce上使用了索引,具体参见下面这个链接 http://user.qzone.qq.com/165162897/blog/1351432946 这次在这个基础上拓展到hive里(实际上也是一个特殊的inputfo原创 2012-11-07 12:42:13 · 5038 阅读 · 1 评论 -
adhoc-海量数据多维自助即席查询平台-mdrill项目开源啦
adhoc-海量数据多维自助即席查询平台-mdrill项目开源啦 1:mdrill是阿里妈妈-adhoc-海量数据多维自助即席查询平台下的一个子项目。 2:mdrill旨在帮助用户在几秒到几十秒的时间内,分析百亿级别的任意维度组合的数据。 3:mdrill是一个分布式的在线分析查询系统,基于hadoop,lucene,solr,jstorm等开源系统作为实现,基于SQL的查询语法。 mdrill是一个能够对大量数据进行分布式处理的软件框架。mdrill是快速的高性能的,他的底层因使用了索引、列式存储、以及原创 2013-07-24 13:45:38 · 5222 阅读 · 0 评论