lucene基本概念

翻译 2012年03月31日 15:55:32

1.  Analyzer: 分词器,将输入的文本切分为基本词元,提供给indexer;

2. Document: 文档,建立索引的基本单元,包含一系列键值对;

3. Term:索引存储的基本单元,对于西文,通常就是一个word;

4. TermEnum:以field为单位,保存所有出现的term,不论出现在哪个Document中;

5. TermDocs: 包含某特定Term的文档,可能还包括Term在文档中出现的频率;

6. TermFreqVector: 包含给定文档中出现的Term及其出现频率;

7. DocumentNumber: Lucene内部文档的索引编号,从0开始;多个Segments内部的编号可以独立,但每个Segment必须有一个ID;

8. Segment: 每个索引可包含多个子索引块,或称为Semgents,每个Segment都是一个独立的索引块;Lucene支持搜索多个Index或多             个Segments;


Segment组成:

  1. Field names: field值的集合;

  2. Stored Field value: 对于每篇文档,是一个属性值对的列表,属性为Field Name;

  3. Term dictionary: 所有文件的索引中出现的词,同时包含出现该词的文档ID和指向词的频率(Term Frequency)、词的位置信息                      (Term Proximity)的指针;

  4. Term Frequency data: 所有出现该Term的文档数量和该Term在文档中出现的频率;

  5. Term Proximity data: Term在每篇文档中出现的位置信息;

  6. Normalization factors: Field的权重,用以计算score;

  7. Term Vectors: 对于每篇Document每个Field,该值保存为Term的值和Term频率;

  8  Deleted Documents: 一个保存已经删除文档的文件;


查询语法:

  + - && || ! ( ) { } [ ] ^ " ~ * ? : \为查询语法中保留的字符,如果需要查询特殊字符,用\转义:



相关文章推荐

了解lucene的基本概念

lucene是什么 下图是一个很好的说明: 1、lucene是构建索引、查询、高亮、拼写检查的类库。 2、它不是一个爬虫。 3、不提供分布式的索引。 lucene...

Lucene 基本概念

首先、要做一个自己的企业内部搜素引擎呢,要认识Lucene: 1、Lucene的贡献者Doug Cutting是一位自身全文索引/检索专家,曾经是V-Twin搜索引擎(Apple的Copland...

lucene和ElasticSearch基本概念

lucene和ElasticSearch基本概念

angularjs基本概念全

  • 2015年10月28日 23:17
  • 2.55MB
  • 下载

xmpp协议详解一:xmpp基本概念

概述 XMPP是一个开放式的XML协议,设计用于准实时消息和出席信息以及请求-响应服务。 通用的架构 通常采用客户端服务器架构进行实现,其中客户端通过TCP方式使用XMPP访问服务器,服务器...

网络体系结构和基本概念

  • 2014年11月05日 12:52
  • 602KB
  • 下载

面向对象c++的基本概念

  • 2015年11月07日 12:06
  • 66KB
  • 下载

hadoop学习之路(二)hadoop基本概念原理以及单词统计任务源码分析

在上一遍博文中,已经将hadoop集群环境搭建完毕。那么,接下来,笔者再根据安装过程中的一些名词对象进行解释,以及大致的运行原理。最后,再获取hadoop-example jar中的单词计数源码,进行...

Oracle 11g RAC 基本概念

  • 2016年10月04日 03:28
  • 388KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:lucene基本概念
举报原因:
原因补充:

(最多只允许输入30个字)