lucene
文章平均质量分 90
wangzhengnb
这个作者很懒,什么都没留下…
展开
-
lucene索引结构(二)--域(Field)信息索引
1. 域(Field)的元数据信息(.fnm)文件分析1.1 作用 我们在为文档建立索引的时候,会为文档添加不同的域(字段)来进行索引,使得索引结构能满足更多的查询语法。例如一个文档集被索引了author,modifydate字段,那么就能支持 'author:wangzhengnb AND modifydate>20120722' 这种Query语法。 更真实的例子就原创 2012-07-22 19:46:56 · 3004 阅读 · 1 评论 -
lucene索引结构(四)-词典(Term Dictionary)索引文件结构分析
搜索引擎检索系统索引的核心是什么? 显然是反向索引。 好了,现在我们开始介绍反向索引部分。0. 一些说明 反向索引分成两部分,如下图(图来自《信息检索导论》): 左面是词项词典(Term Dictionary),右边是倒排记录表(Posting)。 在Lucene中,词典和倒排是分开存储的,词典存储在原创 2012-07-26 17:35:04 · 7347 阅读 · 0 评论 -
lucene索引结构(一)--segment元数据信息
今天起开始深入分析Lucene 3的索引结构。那就从最初步的段索引开始搞吧。1. 建立索引开始分析之前必须要创建索引,这里图省事啦,也没有去网上找什么文档集。直接拿lucene的doc来索引的,这是一堆html的文件,这里只索引了文件的路径、最后修改时间和内容。 doc.add(new Field( "pat原创 2012-07-21 22:45:53 · 11425 阅读 · 0 评论 -
lucene索引结构(三)-词项向量(TermVector)索引文件结构分析
0. 事先对代码进行的一点修改 当我准备开始分析此项向量索引文件的时候,突然发现我的索引程序生成的索引文件里没有.tvx,.tvd,.tvf这三个文件。看了看lucene文档,才知道了"Term Vector support is an optional on a field by field basis. "。 喔!原来是个可选的。那么意思就是说不生成这种索原创 2012-07-24 22:40:37 · 8878 阅读 · 0 评论 -
lucene索引结构(五)--词频倒排索引(frq)文件结构分析
我们在上节,lucene索引结构(四)中分析了lucene倒排索引的词典部分。 词典的作用就是让程序查询词项是否存在,将词项倒排(posting)记录的地址返回。 Lucene中,一个词项的倒排有词频信息和位置信息两部分。 其中词频信息记录存储了某词项在一系列文档中出现了多少次,位置信息记录的是词项在文档中出现的一系列位置。 他们分别被存储在.frq原创 2012-07-28 23:36:07 · 5344 阅读 · 0 评论 -
lucene索引结构(六)--词位置(.prx)倒排索引文件结构分析
1. 作用 词位置倒排索引存在的意义是什么呢? 在web搜索中,绝大多数情况都是自由文本搜索。用户期望很简单的输入一些词语串,搜索引擎就能匹配出与之相关的文档。而词项位置信息,在搜索引擎进行匹配和打分的过程中,提供了很重要的信息。 例如, 文档1包含"I promise I will always love you"。 文档2包含"You原创 2012-07-29 18:24:58 · 3303 阅读 · 1 评论