搜索引擎
文章平均质量分 78
ToBeAndNotToBe
这个作者很懒,什么都没留下…
展开
-
Lucene 合并倒排表算法之并集
上一篇中讲到lucene在合并倒排表时候的交集算法操作.本文继续对倒排表求并集的算法:lucene处理交集时采用的数据结构是一个倒排表的数组,数组的元素是一个个的迭代器来表现每个倒排表.而在求并集的时候则是采用了队列数据结构.在DisjunctionSumScorer类的构造函数中对队列进行了初始化操作: Iterator si = subScorers.iterator(); scorerDocQueue = new ScorerDocQueue(nrScorers); while原创 2010-09-25 13:39:00 · 3938 阅读 · 0 评论 -
开源分词框架分析
本文将带你一起了解搜索引擎神秘面纱中的一个重要部分---中文分词技术:主要讲述中文分词的实现原理和现今比较热门的几种搜索分词java版开源框架。任何一个全文搜索引擎都必须要在对索引处理之前进行一项重要的数据预处理工作:分词。分词的作用在于让机器能够更加容易的"学会"人类语言,搜索引擎才能展示出我们真正想要找的东西。当然,如果仅仅只是针对搜索这个应用场景,对外文(英文,俄文)的分词工作似乎轻而易举,原创 2011-06-28 19:08:00 · 6817 阅读 · 0 评论