信息检索
文章平均质量分 77
wangerge
这个作者很懒,什么都没留下…
展开
-
Lucene的特性分析
3.1. Lucene核心部分——索引排序 Lucene 的索引排序是使用了倒排序原理。 该结构及相应的生成算法如下: 设有两篇文章1和2 文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too. 文章2的内容为:He once lived in Shanghai. 1. 由于lucene是基于关键词索引和查询的,首先我们要取得这两篇文章的转载 2007-07-31 15:39:00 · 692 阅读 · 0 评论 -
Lucene文档结构
4. Lucene文档结构 Lucene中最基础的概念是索引(index),文档(document),域(field)和项(term)。 索引包含了一个文档的序列。 · 文档是一些域的序列。 · 域是一些项的序列。 · 项就是一个字串。 存在于不同域中的同一个字串被认为是不同的项。因此项实际是用一对字串表示的,第一个字串是域名,第二个是域中的字串。 4.1. Lucene概念详细介转载 2007-07-25 13:54:00 · 1110 阅读 · 0 评论 -
理解Lucene的评分机制
3.3 理解Lucene的评分机制为了使读者能够对影响Lucene评分的各个因素有一个全面的认识,我们在这章就来讨论一下这个复杂的主题。首先,我们来看一下图3.1中的相似度评分公式。Lucene会为由某一指定查询匹配到的每个文档d使用这个公式计算其相应的得分。 图3.1 Lucene利用这个公式计算出匹配于某一查询的文档的评分注:如果你对这个方程式或者这种数学计算思想的理解转载 2007-07-26 10:33:00 · 3973 阅读 · 1 评论