lucene
文章平均质量分 68
muyannian
这个作者很懒,什么都没留下…
展开
-
.带索引的mapReduce
带索引的mapReduce 之前我们跑mapreduce,对某些维度进行统计,都是暴利方式的遍历,有些时候,我们仅仅想扫描原始数据的一部分,或者仅仅是其中的一列,这些数据可能仅仅是原始数据的十分之一,百分之一,那么暴利扫描太不可取了。 回想下我们之前使用数据库的场景,数据库在扫描的时候通常是利用一些索引, 而并非全表扫描,故mapReduce 程序也原创 2012-11-07 12:44:05 · 1552 阅读 · 1 评论 -
带索引的HIVE
hive的查询跟普通的hadoop mapreduce没有什么大的区别,都是对原始数据的暴力扫描,如果能够像数据库那样,使用索引,那么数据扫描的速度将会大幅度提升上次在mapreduce上使用了索引,具体参见下面这个链接http://user.qzone.qq.com/165162897/blog/1351432946这次在这个基础上拓展到hive里(实际上也是一个特殊的inputfo原创 2012-11-07 12:42:13 · 5039 阅读 · 1 评论 -
adhoc-海量数据多维自助即席查询平台-mdrill项目开源啦
adhoc-海量数据多维自助即席查询平台-mdrill项目开源啦1:mdrill是阿里妈妈-adhoc-海量数据多维自助即席查询平台下的一个子项目。2:mdrill旨在帮助用户在几秒到几十秒的时间内,分析百亿级别的任意维度组合的数据。3:mdrill是一个分布式的在线分析查询系统,基于hadoop,lucene,solr,jstorm等开源系统作为实现,基于SQL的查询语法。 mdrill是一个能够对大量数据进行分布式处理的软件框架。mdrill是快速的高性能的,他的底层因使用了索引、列式存储、以及原创 2013-07-24 13:45:38 · 5223 阅读 · 0 评论 -
大数据江湖之即席查询与分析(上篇)--即席查询与分析的前世今生
如今,大数据领域新技术层出不穷,可谓百家争鸣,甚是红火。不乏有些玩家动辄搞出个大数据平台,可谓包罗万象,号称无所不能。小弟则以为在大数据江湖中如能修炼好独门绝技,有能拿得出手的看家本领已然实属不易。小弟有幸从2010年投身于大数据,并先后就职于阿里和腾讯,见过世面之后,自知才疏学浅,仅专注于大数据即席查询与分析技术。在此将多年所学所做汇聚成文,留下“大数据江湖之即席查询与分析”三部曲,为大数据即席原创 2017-03-05 12:04:43 · 2007 阅读 · 0 评论