lucene基本概念

1.  Analyzer: 分词器,将输入的文本切分为基本词元,提供给indexer;

2. Document: 文档,建立索引的基本单元,包含一系列键值对;

3. Term:索引存储的基本单元,对于西文,通常就是一个word;

4. TermEnum:以field为单位,保存所有出现的term,不论出现在哪个Document中;

5. TermDocs: 包含某特定Term的文档,可能还包括Term在文档中出现的频率;

6. TermFreqVector: 包含给定文档中出现的Term及其出现频率;

7. DocumentNumber: Lucene内部文档的索引编号,从0开始;多个Segments内部的编号可以独立,但每个Segment必须有一个ID;

8. Segment: 每个索引可包含多个子索引块,或称为Semgents,每个Segment都是一个独立的索引块;Lucene支持搜索多个Index或多             个Segments;


Segment组成:

  1. Field names: field值的集合;

  2. Stored Field value: 对于每篇文档,是一个属性值对的列表,属性为Field Name;

  3. Term dictionary: 所有文件的索引中出现的词,同时包含出现该词的文档ID和指向词的频率(Term Frequency)、词的位置信息                      (Term Proximity)的指针;

  4. Term Frequency data: 所有出现该Term的文档数量和该Term在文档中出现的频率;

  5. Term Proximity data: Term在每篇文档中出现的位置信息;

  6. Normalization factors: Field的权重,用以计算score;

  7. Term Vectors: 对于每篇Document每个Field,该值保存为Term的值和Term频率;

  8  Deleted Documents: 一个保存已经删除文档的文件;


查询语法:

  + - && || ! ( ) { } [ ] ^ " ~ * ? : \为查询语法中保留的字符,如果需要查询特殊字符,用\转义:



阅读更多
个人分类: lucene
上一篇linux程序自动运行
想对作者说点什么? 我来说一句

Lucene研究

2013年10月28日 1.11MB 下载

没有更多推荐了,返回首页

关闭
关闭