lucene基本概念

翻译 2012年03月31日 15:55:32

1.  Analyzer: 分词器,将输入的文本切分为基本词元,提供给indexer;

2. Document: 文档,建立索引的基本单元,包含一系列键值对;

3. Term:索引存储的基本单元,对于西文,通常就是一个word;

4. TermEnum:以field为单位,保存所有出现的term,不论出现在哪个Document中;

5. TermDocs: 包含某特定Term的文档,可能还包括Term在文档中出现的频率;

6. TermFreqVector: 包含给定文档中出现的Term及其出现频率;

7. DocumentNumber: Lucene内部文档的索引编号,从0开始;多个Segments内部的编号可以独立,但每个Segment必须有一个ID;

8. Segment: 每个索引可包含多个子索引块,或称为Semgents,每个Segment都是一个独立的索引块;Lucene支持搜索多个Index或多             个Segments;


Segment组成:

  1. Field names: field值的集合;

  2. Stored Field value: 对于每篇文档,是一个属性值对的列表,属性为Field Name;

  3. Term dictionary: 所有文件的索引中出现的词,同时包含出现该词的文档ID和指向词的频率(Term Frequency)、词的位置信息                      (Term Proximity)的指针;

  4. Term Frequency data: 所有出现该Term的文档数量和该Term在文档中出现的频率;

  5. Term Proximity data: Term在每篇文档中出现的位置信息;

  6. Normalization factors: Field的权重,用以计算score;

  7. Term Vectors: 对于每篇Document每个Field,该值保存为Term的值和Term频率;

  8  Deleted Documents: 一个保存已经删除文档的文件;


查询语法:

  + - && || ! ( ) { } [ ] ^ " ~ * ? : \为查询语法中保留的字符,如果需要查询特殊字符,用\转义:



lucene(一) lucene一些概念的理解

1 lucene简介 1.1 什么是lucene     Lucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它...
  • u013360022
  • u013360022
  • 2016年05月16日 15:09
  • 1494

lucene学习笔记(四)lucene分词详解

分词器的核心类Analyzer SimpleAnalyzer StopAnalyzer WhitespaceAnalyzer StandardAnalyzer TokenStream分词器做好处理之后...
  • fgyibupi
  • fgyibupi
  • 2017年01月25日 13:31
  • 1524

Docker学习笔记(一):Docker的三个基本概念

Docker 包括三个基本概念 镜像(Image)容器(Container)仓库(Repository) 理解了这三个概念,就理解了 Docker 的整个生命周期。 镜像Image Docker...
  • kunikida
  • kunikida
  • 2015年05月24日 20:37
  • 1912

了解lucene的基本概念

lucene是什么 下图是一个很好的说明: 1、lucene是构建索引、查询、高亮、拼写检查的类库。 2、它不是一个爬虫。 3、不提供分布式的索引。 lucene...
  • shuyun123456789
  • shuyun123456789
  • 2017年01月18日 13:23
  • 259

Lucene 基本概念

首先、要做一个自己的企业内部搜素引擎呢,要认识Lucene: 1、Lucene的贡献者Doug Cutting是一位自身全文索引/检索专家,曾经是V-Twin搜索引擎(Apple的Copland...
  • lujianing2011
  • lujianing2011
  • 2013年03月21日 13:06
  • 665

lucene和ElasticSearch基本概念

lucene和ElasticSearch基本概念
  • everlasting_188
  • everlasting_188
  • 2016年07月04日 18:37
  • 3067

java基本概念试卷

  • 2018年01月13日 10:46
  • 19KB
  • 下载

angularjs基本概念全

  • 2015年10月28日 23:17
  • 2.55MB
  • 下载

C指针基本概念核心技术及最佳实践 完整书签版

  • 2017年09月15日 10:51
  • 24.2MB
  • 下载

网络体系结构和基本概念

  • 2014年11月05日 12:52
  • 602KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:lucene基本概念
举报原因:
原因补充:

(最多只允许输入30个字)