hadoop
dongjinyong
这个作者很懒,什么都没留下…
展开
-
基于hadoop创建lucene索引(一)编程模型一
场景:面对10亿级别微博数据进行索引是一个挑战。单机无法在可接受的时间内创建全量索引和增量索引,因此我们采用基于hadoop map-reduce并行计算的方式,实现索引创建、更新。 Map-Reduce模型回顾: Hdfs文件读写、lucene索引读写特点: Hdfs是hadoop的分布式文件存储系统。Hdfs为提高集群存储的效率,目前只支持顺序写,不支持随机写,即:只能从原创 2013-05-24 14:23:33 · 1124 阅读 · 0 评论 -
基于hadoop创建lucene索引(二)编程模型二
针对上篇提到的问题,我们采用一个新的编程模型来提高程序执行效率。在上篇所述的编程模型里,lucene创建索引的大部分开销集中在了reduce端,受限于reduce个数(因业务需要reduce个数不能随意增加),且索引合并过程完全依赖于磁盘读写速度。由此可找到两个突破口: 1. 把大部分开销转移到map端,提高并发度。map个数主要取决于集群的规模,集群规模越大,可并发执行的map数越多。这样程原创 2013-08-06 23:59:16 · 779 阅读 · 0 评论 -
hadoop2.2.0在64位readhat编译实战
前阵子升级hadoop到2.2.0,官方32位的原创 2014-08-05 10:01:36 · 532 阅读 · 0 评论