搜索引擎
AthrunSaga
从事开发已经10几年了,研究过汇编、C、C++、Delphi、Java、C#等开发语言,从事过嵌入式、C/S、B/S等开发类型的项目,参加实际的项目也有8年多,现在主要从事项目管理、系统架框及设计和研发攻关工作。
展开
-
一氪钟:浅说 Lucene 倒排索引与分词
Lucene 是基于倒排索引来实现快速的全文检索的,那么倒排索引是什么概念呢?首先来看看普通索引是怎样建立的,请参考下图。图中,我们为右侧的每一个文档都建立了一个索引编号,当我们知道这个编号时,就可以查询到对应的文档,而如果我们还对这些索引编号进行排序,那检索的速度就会更快。但是,当我们需要检索包含“F”的文档时,普通索引就完全不能发挥作用了,因为我们不得不遍历每一个文原创 2013-10-09 21:28:29 · 1115 阅读 · 0 评论 -
一氪钟:了解和实现 Lucene 分词器
说明:本文所涉及的 Lucene 类型来源于 Apache Lucene 4.3.0 版本。Lucene 分词器是通过继承 Tokenizer 类型来实现的,Tokenizer 类型的继承结构如下。图中与分词器实现相关的类型一共有三个:AttributeSource、TokenStream 和 Tokenizer,这三个类型在我们实现的分词器的继承路原创 2013-10-10 21:59:37 · 1553 阅读 · 0 评论