《Elasticsearch技术解析与实战》 学习笔记
Elasticsearch(ES)是一个基于
Lucene
构建的开源的、分布式、RESTful接口全文搜索 引擎。Elasticsearch还是一个分布式文档数据库,其中每个字段均是被索引的数据且可被搜索。
在学习ES之前,先来了解下它的一些基本概念, 这点非常重要。
基本概念
Lucene全文搜索
全文搜索
是指计算机搜索程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,搜索程序就根据事先建立的索引进行查找,并将结果反馈给用户。这个过程类似于通过字典查字的过程。
Lucene
是Apache下一个开源的全文搜索引擎工具包,它是一个全文搜索引擎框架,提供了完整的查询引擎和索引引擎,部分文本分析引擎。
Lucene是目前全球使用最广的全文搜索引擎开源库。
Lucene倒排索引
倒排索引
源于实际应用中根据属性的值来查找记录
。这种索引表中每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而被称为
倒排索引(inverted index)。
倒排索引中的索引对象是文档或者文档中的单词等
,用来存储这些单词在一个文档或一组文档中的存储位置。
搜索引擎的关键步骤就是建立倒排索引,倒排索引一般表示为一个关键词
,然后是它的词频
(出现的次数),位置
(出现在哪一篇文章或网页,以及有关的日期,作者等信息)。好比一本书目录、标签,读者想看哪一个主题相关的章节,直接根据目录查找即可,无需一页一页的查找。
假设有两篇文章:
文章1: Tom lives in GuangZhou,I live in GuangZhou too.
文章2: He once lived in ShangHai.
1.取得关键词
取关键词,有如下规则:
分词
: 首先提取文章中所有的单词。 英文单词由于用空格分隔,比较好处理。中文单词间由于是连在一起的,所以需要特殊的分词处理。过滤
: 文章中的in, too, once
等词没有什么实际意义,中文中的的,是
等字通常也无具体含义,这些不代表概念的词是可以过滤
掉的。- 用户通常希望查
he
时能把含有he
和HE
的文章也查出来,所以所有单词要统一大小写
。 - 用户通常希望查
live
时能把lives,lived
的文章也查出来,所以需要把lives,lived
还原成live
. - 文章中标点符号通常不表示某种概念,也可以过滤掉。
通过诸上的规则,可以得到如下结果:
文章1关键词: tom , live , guangzhou , i , live ,guangzhou
文章2关键词: he , live , shanghai
2.建立倒排索引
关键词 | 文章号 |
---|---|
guangzhou | 1 |
he | 2 |
i | 1 |
live | 1,2 |
shanghai | 1 |
tom | 1 |
通常仅知道关键词出现在哪些文章中出现还不够,我们还需要知道词频
和位置
,通常有两种位置:
字符位置
: 记录该词是文章中第几个字符关键词位置
: 记录该词是文章中第几个关键词(有点是节约索引空间,词组查询快),Lucene中记录的就是这种位置。
关键词 | 文章号[词频] | 出现位置 |
---|---|---|
guangzhou | 1[2] | 3,6 |
he | 2[1] | 1 (当两个位置相同时,只记录一个节约空间) |
i | 1[1] | 4 |
live | 1[2], 2[1] | 2,5 2 |
shanghai | 2[1] | 3 |
tom | 1[1] | 1 |
3.实现
Lucene将上面的3列分别作为:
词典文件(Term Dictionary)
: 不仅保存了关键词,还保留了指向频率文件和位置文件的指针。频率文件(frequencies)
- 位置文件(positions)
Lucene中使用了field
的概念,用于表达信息所在位置(如在标题中,文章中,url中)。在建索引中,该field信息也记录在词典文件中,每个关键词都有一个field信息,因为每个关键词一定属于一个或多个field.
基本术语
在elasticsearch中有许多术语和概念,接下来我们来学习下这些术语。
集群和节点
-
集群(cluster)
: 集群由一个或多个节点组成,对外提供服务。注意节点名称不能重复。
-
节点(node)
: 一个节点是一个逻辑上的独立的服务,它是集群的一部分,可以存储数据,并参与集群的索引和搜索功能。每个节点当设置为相同的集群名称后,会自动加入集群。
## 集群名称
cluster.name: es_bop
## 节点名称
node.name: master_s157
## 是否为master节点
node.master: true
复制(replica)
: 高可用,解决单点问题。(默认2个副本)
分片(shard)
: 每个索引都有多个分片,每个分片是一个Lucene索引。用来水平分割扩展数据(默认5个分片)
主分片(primary shard)
: 每个文档都存储在一个分片中,当你存储一个文档时,系统会先存储在主分片中,然后复制到不同的副本中。副本分片(replica shard)
: 每一个分片有0或多个副本,它是主分片的复制。
索引相关术语
-
索引(index)
: 索引是具有相同结构的文档的集合。 类比关系型数据库中的:数据库。
-
类型(type)
: 在索引中,可以创建一个或多个类型,类型是索引的逻辑分区。 类比关系型数据库中的:表
-
文档(document)
: 文档是存储在es中一个一个JSON格式字符串。 类比关系型数据库中的:一行数据
-
字段(field)
: 类比关系型数据库中的:列
映射(mapping)
: 类比关系型数据库中的:表结构
来源字段(source field)
: 默认情况下会将原文档存储在_source
字段中。