- 博客(2)
- 资源 (4)
- 收藏
- 关注
原创 带索引的HIVE
hive的查询跟普通的hadoop mapreduce没有什么大的区别,都是对原始数据的暴力扫描,如果能够像数据库那样,使用索引,那么数据扫描的速度将会大幅度提升上次在mapreduce上使用了索引,具体参见下面这个链接http://user.qzone.qq.com/165162897/blog/1351432946这次在这个基础上拓展到hive里(实际上也是一个特殊的inputfo
2012-11-07 12:42:13 5009 1
原创 .带索引的mapReduce
带索引的mapReduce 之前我们跑mapreduce,对某些维度进行统计,都是暴利方式的遍历,有些时候,我们仅仅想扫描原始数据的一部分,或者仅仅是其中的一列,这些数据可能仅仅是原始数据的十分之一,百分之一,那么暴利扫描太不可取了。 回想下我们之前使用数据库的场景,数据库在扫描的时候通常是利用一些索引, 而并非全表扫描,故mapReduce 程序也
2012-11-07 12:44:05 1536 1
mathout in action (pdf)
2010-07-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人