自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

技术源于生活

努力学习新技术

  • 博客(2)
  • 资源 (1)
  • 收藏
  • 关注

原创 Hadoop记录排序

hadoop的每次输出都是输出的key,value对,默认的hadoop会对key进行排序,但如果我们想对value也排序的话怎么办了。一个具体例子,假设现在我们有一堆交易数据,例如,用户在某个时间买了某件货品,那么我们可能希望先根据用户名分组,但是在组内,我们希望按照时间排序。那么如果我们把用户名作为key,那就不能对时间排序。如果把用户名和时间作为组合key,那么记录就不是按照用户名来分组

2009-02-24 19:16:00 3918

原创 通过Hadoop做分布式索引

数据库里面有千万级的数据需要做索引,开始的方案是起线程,然后每次读取一定的数量,索引,然后继续读。一开始上了四台普通的PC,1.8的CPU,1G的内存,做了10个多小时才索引完。后来换了Hadoop,同样的四台机器,只要20分钟就完成了。当然不是直接上hadoop就能提速那么多,还是需要做很多地方的调整的。第一个,先把数据库记录dump出来成为文本文件,然后放到hdfs里面,这样做的目的是

2009-02-22 21:31:00 6267 1

How Tomcat Works

this is book clarify how tomcat works

2010-01-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除