2012年11月_muyannian

11月 03月

原创带索引的HIVE

hive的查询跟普通的hadoop mapreduce没有什么大的区别，都是对原始数据的暴力扫描，如果能够像数据库那样，使用索引，那么数据扫描的速度将会大幅度提升上次在mapreduce上使用了索引，具体参见下面这个链接http://user.qzone.qq.com/165162897/blog/1351432946这次在这个基础上拓展到hive里（实际上也是一个特殊的inputfo

2012-11-07 12:42:13 5009 1

原创 .带索引的mapReduce

带索引的mapReduce 之前我们跑mapreduce，对某些维度进行统计，都是暴利方式的遍历，有些时候，我们仅仅想扫描原始数据的一部分，或者仅仅是其中的一列，这些数据可能仅仅是原始数据的十分之一，百分之一，那么暴利扫描太不可取了。回想下我们之前使用数据库的场景，数据库在扫描的时候通常是利用一些索引，而并非全表扫描，故mapReduce 程序也

2012-11-07 12:44:05 1536 1