es基本概念

《Elasticsearch技术解析与实战》 学习笔记

Elasticsearch(ES)是一个基于Lucene构建的开源的、分布式、RESTful接口全文搜索 引擎。Elasticsearch还是一个分布式文档数据库,其中每个字段均是被索引的数据且可被搜索。

在学习ES之前,先来了解下它的一些基本概念, 这点非常重要。

基本概念

Lucene全文搜索

全文搜索是指计算机搜索程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,搜索程序就根据事先建立的索引进行查找,并将结果反馈给用户。这个过程类似于通过字典查字的过程。

Lucene是Apache下一个开源的全文搜索引擎工具包,它是一个全文搜索引擎框架,提供了完整的查询引擎和索引引擎,部分文本分析引擎。

Lucene是目前全球使用最广的全文搜索引擎开源库。

Lucene倒排索引

倒排索引源于实际应用中根据属性的值来查找记录。这种索引表中每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而被称为倒排索引(inverted index)

倒排索引中的索引对象是文档或者文档中的单词等,用来存储这些单词在一个文档或一组文档中的存储位置。

搜索引擎的关键步骤就是建立倒排索引,倒排索引一般表示为一个关键词,然后是它的词频(出现的次数),位置(出现在哪一篇文章或网页,以及有关的日期,作者等信息)。好比一本书目录、标签,读者想看哪一个主题相关的章节,直接根据目录查找即可,无需一页一页的查找。

假设有两篇文章:

文章1: Tom lives in GuangZhou,I live in GuangZhou too.

文章2: He once lived in ShangHai.

1.取得关键词

取关键词,有如下规则:

  • 分词: 首先提取文章中所有的单词。 英文单词由于用空格分隔,比较好处理。中文单词间由于是连在一起的,所以需要特殊的分词处理。
  • 过滤: 文章中的in, too, once等词没有什么实际意义,中文中的的,是等字通常也无具体含义,这些不代表概念的词是可以过滤掉的。
  • 用户通常希望查he时能把含有heHE的文章也查出来,所以所有单词要统一大小写
  • 用户通常希望查live时能把lives,lived的文章也查出来,所以需要把lives,lived还原成live.
  • 文章中标点符号通常不表示某种概念,也可以过滤掉。

通过诸上的规则,可以得到如下结果:

文章1关键词: tom , live , guangzhou , i , live ,guangzhou

文章2关键词: he , live , shanghai

2.建立倒排索引

关键词文章号
guangzhou1
he2
i1
live1,2
shanghai1
tom1

通常仅知道关键词出现在哪些文章中出现还不够,我们还需要知道词频位置,通常有两种位置:

  • 字符位置: 记录该词是文章中第几个字符
  • 关键词位置: 记录该词是文章中第几个关键词(有点是节约索引空间,词组查询快),Lucene中记录的就是这种位置
关键词文章号[词频]出现位置
guangzhou1[2]3,6
he2[1]1 (当两个位置相同时,只记录一个节约空间)
i1[1]4
live1[2],
2[1]
2,5
2
shanghai2[1]3
tom1[1]1

3.实现

Lucene将上面的3列分别作为:

  • 词典文件(Term Dictionary): 不仅保存了关键词,还保留了指向频率文件和位置文件的指针。
  • 频率文件(frequencies)
  • 位置文件(positions)

Lucene中使用了field的概念,用于表达信息所在位置(如在标题中,文章中,url中)。在建索引中,该field信息也记录在词典文件中,每个关键词都有一个field信息,因为每个关键词一定属于一个或多个field.


基本术语

在elasticsearch中有许多术语和概念,接下来我们来学习下这些术语。

集群和节点

  • 集群(cluster): 集群由一个或多个节点组成,对外提供服务。注意节点名称不能重复。

  • 节点(node): 一个节点是一个逻辑上的独立的服务,它是集群的一部分,可以存储数据,并参与集群的索引和搜索功能。每个节点当设置为相同的集群名称后,会自动加入集群。

## 集群名称
cluster.name: es_bop

## 节点名称
node.name: master_s157

## 是否为master节点
node.master: true
  • 复制(replica): 高可用,解决单点问题。(默认2个副本)
  • 分片(shard): 每个索引都有多个分片,每个分片是一个Lucene索引。用来水平分割扩展数据(默认5个分片)
    • 主分片(primary shard): 每个文档都存储在一个分片中,当你存储一个文档时,系统会先存储在主分片中,然后复制到不同的副本中。
    • 副本分片(replica shard): 每一个分片有0或多个副本,它是主分片的复制。

在这里插入图片描述

索引相关术语

  • 索引(index): 索引是具有相同结构的文档的集合。 类比关系型数据库中的:数据库。

  • 类型(type): 在索引中,可以创建一个或多个类型,类型是索引的逻辑分区。 类比关系型数据库中的:

  • 文档(document): 文档是存储在es中一个一个JSON格式字符串。 类比关系型数据库中的:一行数据

  • 字段(field): 类比关系型数据库中的:

在这里插入图片描述

  • 映射(mapping): 类比关系型数据库中的:表结构
  • 来源字段(source field): 默认情况下会将原文档存储在_source字段中。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值