ES教程——深入原理

最新推荐文章于 2024-08-21 19:02:31 发布

HJHxHJH

最新推荐文章于 2024-08-21 19:02:31 发布

阅读量1.2k

点赞数

分类专栏： Java学习之路文章标签： elasticsearch

本文链接：https://blog.csdn.net/sinat_24044957/article/details/120049955

版权

Java学习之路专栏收录该内容

8 篇文章 0 订阅

订阅专栏

全文检索原理——倒排索引

什么是全文检索

全文检索是指：
通过一个程序扫描文本中的每一个单词，针对单词建立索引，并保存该单词在文本中的位置、以及出现的次数
用户查询时，通过之前建立好的索引来查询，将索引中单词对应的文本位置、出现的次数返回给用户，因为有了具体文本的位置，所以就可以将具体内容读取出来了

hello what world ====> hello
what
world

分词原理之倒排索引

在这里插入图片描述

es的存储结构

在这里插入图片描述

Elasticsearch中文档使用json格式存储。

es的数据结构

es内部使用的是lucene进行存储，lucene字典的数据结构采用的FST

es的分布式查询原理

es-评分机制

TF/IDF算法（es 6.x之前的默认算法）

es的评分机制：TF/IDF算法，即term frequency/inverse document frequency算法

Term frequency（词频）：搜索文本中的各个词条在field文本中出现了多少次，出现次数越多，就越相关
Inverse document frequency（逆向文档频率）：搜索文本中的各个词条在整个索引的所有文档中出现了多少次，出现的次数越多，就越不相关
Field-length norm：field长度，field越长，相关度越弱

BM25 模型（es 6.x之后的默认算法）

BM25 模型中BM指的Best Match，25指的是在BM25中的计算公式是第25次迭代优化，是针对TF/IDF的一个优化，其计算公式如下
在这里插入图片描述

es文档版本控制机制

2、乐观锁并发控制 if_seq_no 和 if_primary_term意义
if_seq_no 和 if_primary_term 是用来并发控制，他们和version不同，version属于当个文档，而seq_no属于整个index。

3、对已存在的mapping映射进行修改
具体方法
1）如果要推倒现有的映射, 你得重新建立一个静态索引
2）然后把之前索引里的数据导入到新的索引里
3）删除原创建的索引
4）为新索引起个别名, 为原索引名

Elasticsearch架构原理

Elasticsearch的节点类型

在Elasticsearch主要分成两类节点，一类是Master，一类是DataNode。

Master节点

在Elasticsearch启动时，会选举出来一个Master节点。当某个节点启动后，然后使用Zen discovery集群机制找到集群中的其他节点，并建立连接。
discovery.seed_hosts: [“192.168.21.130”, “192.168.21.131”, “192.168.21.132”]
并从候选主节点中选举出一个主节点。
cluster.initial_master_nodes: [“node1”, “node2”,“node3”]

Master节点主要负责：
管理索引（创建索引、删除索引）、分配分片
维护元数据
管理集群节点状态
不负责数据写入和查询，比较轻量级

一个Elasticsearch集群中，只有一个Master节点。在生产环境中，内存可以相对小一点，但机器要稳定。

DataNode节点

在Elasticsearch集群中，会有N个DataNode节点。DataNode节点主要负责：
数据写入、数据检索，大部分Elasticsearch的压力都在DataNode节点上
在生产环境中，内存最好配置大一些

分片和副本机制

ES默认分片和副本数：

ES 7.x之前，默认5个分片和1个副本，即共有10个份数据。
ES 7.x之后，默认1个分片和1个副本，即共有2个份数据。

分片（Shard）

Elasticsearch是一个分布式的搜索引擎，索引的数据也是分成若干部分，分布在不同的服务器节点中
分布在不同服务器节点中的索引数据，就是分片（Shard）。Elasticsearch会自动管理分片，如果发现分片分布不均衡，就会自动迁移
一个索引（index）由多个shard（分片）组成，而分片是分布在不同的服务器上的

副本

为了对Elasticsearch的分片进行容错，假设某个节点不可用，会导致整个索引库都将不可用。所以，需要对分片进行副本容错。每一个分片都会有对应的副本。
在Elasticsearch中，默认创建的索引为1个分片、每个分片有1个主分片和1个副本分片。

每个分片都会有一个Primary Shard（主分片），也会有若干个Replica Shard（副本分片）
Primary Shard和Replica Shard不在同一个节点上

指定分片、副本数量

es 可以通过mapping指定分片和副本数量

// 创建指定分片数量、副本数量的索引
PUT /job_idx_shard_temp
{
"mappings":{
"properties":{
"id":{"type":"long","store":true},
"area":{"type":"keyword","store":true},
"exp":{"type":"keyword","store":true},
"edu":{"type":"keyword","store":true},
"salary":{"type":"keyword","store":true},
"job_type":{"type":"keyword","store":true},
"cmp":{"type":"keyword","store":true},
"pv":{"type":"keyword","store":true},
"title":{"type":"text","store":true},
"jd":{"type":"text"}

}
},
"settings":{
"number_of_shards":3,
"number_of_replicas":2
}
}

// 查看分片、主分片、副本分片
GET /_cat/indices?v

Elasticsearch重要工作流程

Elasticsearch文档写入原理

在这里插入图片描述

选择任意一个DataNode发送请求，例如：node2。此时，node2就成为一个coordinating node（协调节点）
计算得到文档要写入的分片
shard = hash(routing) % number_of_primary_shards
routing 是一个可变值，默认是文档的 _id
coordinating node会进行路由，将请求转发给对应的primary shard所在的DataNode（假设primary shard在node1、replica shard在node2）
node1节点上的Primary Shard处理请求，写入数据到索引库中，并将数据同步到Replica shard
Primary Shard和Replica Shard都保存好了文档，返回client