Elasticsearch是一款优秀的全文索引产品。Elasticsearch基于Lucene构建索引和进行查询,理解Lucene的相关知识有助于更深入的学习和使用Elasticsearch。
1. Lucene简介
Lucene是一款成熟的、高性能的、可扩展的、轻量级的、功能强大的全文索引框架。
关键概念
其关键概念包括:
- Document:数据源,由Field组成。
- Field:Document的组成部分,由name和value组成。
- Term:不可分割的单词,搜索最小单元。
- Token:一个Term的呈现方式,包含这个Term的内容,在文档中的起始位置,以及类型。
数据结构
其核心数据结构是倒排索引,把索引中的每个Term与相应的Document映射起来,形式如下:
Term -> (count, Document)
Lucene实现搜索的核心是索引过程和搜索过程:
- 索引过程,Lucene用指定的analyzer解析用户添加的Document并存储到倒排索引中。
- 搜索过程,用户的输入查询语句将被选定的查询解析器(query parser)所解析,生成多个Query对象并从倒排索引中查询。
对于索引过程和搜索过程的数据解析这一环节,我们需要把握的重点在于:倒排索引中词应该和查询语句中的词正确匹配。
分词
数据解析工作由analyzer组件负责。analyzer由一个分词器(tokenizer)和0个或者多个过滤器(filter)组成,也可能会有0个或者多个字符映射器(character mappers)组成。
Lucene中的tokenizer用来把文本拆分成一个个的Token。Token包含了比较多的信息,比如Term在文本的中的位置及Term原始文本,以及Term的长度。文本经过tokenizer处理后的结果称为token stream。token stream其实就是一个个Token的顺序排列。token stream将等待着filter来处理。filter链将用来处理Token Stream中的每一个token。这些处理方式包括删除Token,改变Token,甚至添加新的Token。
操作过程
Lucene的操作方式和操作数据库有点相似。数据库操作流程为:如果要使用数据库,必须先创建数据库,然后往这个数据表中一行一行的插入数据记录,数据记录插入成功之后,就可以操作这张数据表,实现增删改查操作了。在lucene中,“数据库”是索引文件目录,“数据记录”是Document,Document由Field组成,Field由name和value组成。类似的操作流程为:
1、创建索引文件目录;
2、封装数据源:用Field封装需要检索的信息,然后将Field封装到一个Document文档对象;
3、存储索引:将Docement放入索引文件目录中;
4、删除索引:根据索引id去删除对应的索引;
5、更新索引:先将旧的索引删除,然后添加新的索引;
6、查询索引:先创建索引读取对象,然后封装Query查询对象,调用search()方法得到检索结果。
示例可以参考lucene示例