- 博客(2)
- 资源 (1)
- 收藏
- 关注
原创 Hadoop记录排序
hadoop的每次输出都是输出的key,value对,默认的hadoop会对key进行排序,但如果我们想对value也排序的话怎么办了。一个具体例子,假设现在我们有一堆交易数据,例如,用户在某个时间买了某件货品,那么我们可能希望先根据用户名分组,但是在组内,我们希望按照时间排序。那么如果我们把用户名作为key,那就不能对时间排序。如果把用户名和时间作为组合key,那么记录就不是按照用户名来分组
2009-02-24 19:16:00 3918
原创 通过Hadoop做分布式索引
数据库里面有千万级的数据需要做索引,开始的方案是起线程,然后每次读取一定的数量,索引,然后继续读。一开始上了四台普通的PC,1.8的CPU,1G的内存,做了10个多小时才索引完。后来换了Hadoop,同样的四台机器,只要20分钟就完成了。当然不是直接上hadoop就能提速那么多,还是需要做很多地方的调整的。第一个,先把数据库记录dump出来成为文本文件,然后放到hdfs里面,这样做的目的是
2009-02-22 21:31:00 6267 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人