lucene基本概念

翻译 2012年03月31日 15:55:32

1.  Analyzer: 分词器,将输入的文本切分为基本词元,提供给indexer;

2. Document: 文档,建立索引的基本单元,包含一系列键值对;

3. Term:索引存储的基本单元,对于西文,通常就是一个word;

4. TermEnum:以field为单位,保存所有出现的term,不论出现在哪个Document中;

5. TermDocs: 包含某特定Term的文档,可能还包括Term在文档中出现的频率;

6. TermFreqVector: 包含给定文档中出现的Term及其出现频率;

7. DocumentNumber: Lucene内部文档的索引编号,从0开始;多个Segments内部的编号可以独立,但每个Segment必须有一个ID;

8. Segment: 每个索引可包含多个子索引块,或称为Semgents,每个Segment都是一个独立的索引块;Lucene支持搜索多个Index或多             个Segments;


Segment组成:

  1. Field names: field值的集合;

  2. Stored Field value: 对于每篇文档,是一个属性值对的列表,属性为Field Name;

  3. Term dictionary: 所有文件的索引中出现的词,同时包含出现该词的文档ID和指向词的频率(Term Frequency)、词的位置信息                      (Term Proximity)的指针;

  4. Term Frequency data: 所有出现该Term的文档数量和该Term在文档中出现的频率;

  5. Term Proximity data: Term在每篇文档中出现的位置信息;

  6. Normalization factors: Field的权重,用以计算score;

  7. Term Vectors: 对于每篇Document每个Field,该值保存为Term的值和Term频率;

  8  Deleted Documents: 一个保存已经删除文档的文件;


查询语法:

  + - && || ! ( ) { } [ ] ^ " ~ * ? : \为查询语法中保留的字符,如果需要查询特殊字符,用\转义:



举报

相关文章推荐

了解lucene的基本概念

lucene是什么 下图是一个很好的说明: 1、lucene是构建索引、查询、高亮、拼写检查的类库。 2、它不是一个爬虫。 3、不提供分布式的索引。 lucene...

Lucene 基本概念

首先、要做一个自己的企业内部搜素引擎呢,要认识Lucene: 1、Lucene的贡献者Doug Cutting是一位自身全文索引/检索专家,曾经是V-Twin搜索引擎(Apple的Copland...

我是如何成为一名python大咖的?

人生苦短,都说必须python,那么我分享下我是如何从小白成为Python资深开发者的吧。2014年我大学刚毕业..

lucene和ElasticSearch基本概念

lucene和ElasticSearch基本概念
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)