Elasticsearch学习笔记（1）——Lucene简介

最新推荐文章于 2022-06-19 11:42:09 发布

白水不开

最新推荐文章于 2022-06-19 11:42:09 发布

阅读量819

点赞数

分类专栏：大数据技术

本文链接：https://blog.csdn.net/weitry/article/details/52922484

版权

大数据技术专栏收录该内容

10 篇文章 0 订阅

订阅专栏

Elasticsearch是一款优秀的全文索引产品。Elasticsearch基于Lucene构建索引和进行查询，理解Lucene的相关知识有助于更深入的学习和使用Elasticsearch。

1. Lucene简介

Lucene是一款成熟的、高性能的、可扩展的、轻量级的、功能强大的全文索引框架。

关键概念

其关键概念包括：

Document：数据源，由Field组成。
Field：Document的组成部分，由name和value组成。
Term：不可分割的单词，搜索最小单元。
Token：一个Term的呈现方式，包含这个Term的内容，在文档中的起始位置，以及类型。

数据结构

其核心数据结构是倒排索引，把索引中的每个Term与相应的Document映射起来，形式如下：

Term -> （count, Document）

Lucene实现搜索的核心是索引过程和搜索过程：

索引过程，Lucene用指定的analyzer解析用户添加的Document并存储到倒排索引中。
搜索过程，用户的输入查询语句将被选定的查询解析器(query parser)所解析，生成多个Query对象并从倒排索引中查询。

对于索引过程和搜索过程的数据解析这一环节，我们需要把握的重点在于：倒排索引中词应该和查询语句中的词正确匹配。

分词

数据解析工作由analyzer组件负责。analyzer由一个分词器(tokenizer)和0个或者多个过滤器(filter)组成,也可能会有0个或者多个字符映射器(character mappers)组成。

Lucene中的tokenizer用来把文本拆分成一个个的Token。Token包含了比较多的信息，比如Term在文本的中的位置及Term原始文本，以及Term的长度。文本经过tokenizer处理后的结果称为token stream。token stream其实就是一个个Token的顺序排列。token stream将等待着filter来处理。filter链将用来处理Token Stream中的每一个token。这些处理方式包括删除Token，改变Token，甚至添加新的Token。

操作过程

Lucene的操作方式和操作数据库有点相似。数据库操作流程为：如果要使用数据库，必须先创建数据库，然后往这个数据表中一行一行的插入数据记录，数据记录插入成功之后，就可以操作这张数据表，实现增删改查操作了。在lucene中，“数据库”是索引文件目录，“数据记录”是Document，Document由Field组成，Field由name和value组成。类似的操作流程为：

1、创建索引文件目录；
2、封装数据源：用Field封装需要检索的信息，然后将Field封装到一个Document文档对象；
3、存储索引：将Docement放入索引文件目录中；
4、删除索引：根据索引id去删除对应的索引；
5、更新索引：先将旧的索引删除，然后添加新的索引；
6、查询索引：先创建索引读取对象，然后封装Query查询对象，调用search()方法得到检索结果。

示例可以参考lucene示例