lucene
文章平均质量分 78
犀利-sharp
这个作者很懒,什么都没留下…
展开
-
lucene 之 全文检索概述
我们日常生活中的数据可以分成两种,一种是结构化数据,还有一种是非结构化数据。结构化数据就是固定格式和有限长度的数据,比如数据库和元数据等等。非结构化就是无固定格式和不定长的数据,比如邮件和word文档。还有介于两者之间的,半结构化数据,比如XML,html等,看具体需求可以有不同的处理方法。非结构化数据还可以叫做全文数据。搜索引擎一般是针对这种数据来索引。一种最直观的方法可以顺原创 2016-07-05 11:28:52 · 239 阅读 · 0 评论 -
lucene 4.6 之索引文件格式
名词解释:document 包含一系列的fieldsfield是一系列terms的代号term是一系列的bytes 倒排索引:这个索引存储了关于这个term的一些统计,为什么叫做倒排索引,因为这个能够列出包含这个term的所有文档,这是正常关系的一个逆,正常关系是一个文档列出里面有哪些词。 fields的类型:一个field能够被stored,如果这么设置,他会原创 2016-07-05 11:29:02 · 265 阅读 · 0 评论 -
lucene 4.6 之indexing 之 IndexWriter, DocumentWriter
lucene 的操作主要分成 indexing 和 searching , 两个操作也就完成了整个闭环操作,咱们先从这个indexing说起。class IndexWriter 可以说是lucene暴露给上层应用的一个类。上层应用程序通过这个类打开lucene的索引世界。通过了解这个类得成员变量来了解这个类到底是干什么的,有几个比较重要的对象:private final Directo原创 2016-07-05 11:29:36 · 280 阅读 · 0 评论 -
lucene 存储,访问小技巧
lucene为了能够是信息存储的空间更小,访问速度更快,用了一些小技巧,下面介绍一些技巧:1. Prefix + Suffix 在保存Term Dictionary的时候,会保存几乎所有的词,这样索引文件会非常大,当某个词跟前面一个词拥有相同前缀的时候,后面的词仅仅保存前缀在词中得偏移,以及除了前缀之外的字符串。比如存储如下几个词: term, termagancy, terma原创 2016-07-05 11:29:46 · 665 阅读 · 0 评论 -
lucene 4.6 之indexing 之 IndexChain,索引数据结构
/* This is the current indexing chain: DocConsumer / DocConsumerPerThread --> code: DocFieldProcessor --> DocFieldConsumer / DocFieldConsumerPerField -原创 2016-07-05 11:30:07 · 334 阅读 · 0 评论