elasticsearch核心概念

最新推荐文章于 2022-05-11 18:30:45 发布

north_china

最新推荐文章于 2022-05-11 18:30:45 发布

阅读量130

点赞数

分类专栏： Elasticsearch

本文链接：https://blog.csdn.net/kebo_china/article/details/83788027

版权

Elasticsearch 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1、elasticsearch
   自动维护数据的分布到多个节点的索引的简历，还有搜索请求分布到多个借点的执行
   自动未出输的一些集群宕机了，不会丢失任何的数据
   封装了更多的搞笑功能，以给我们通过更多的支持，让我们可以快速的开发，开发更加复杂的应用，复杂的搜索功能，集合分析功能，
   可以实现地理位置的搜索
2、lucene和elastcisearch
lucene，最先进、功能最强大的搜索库，直接基于lucene开发，非常复杂，api复杂（实现一些简单的功能，写大量的java代码），需要深入理解原理（各种索引结构）
elasticsearch，基于lucene，隐藏复杂性，提供简单易用的restful api接口、java api接口（还有其他语言的api接口）
（1）分布式的文档存储引擎
（2）分布式的搜索引擎和分析引擎
（3）分布式，支持PB级数据

3、elasticsearch的核心概念
（1）Near Realtime（NRT）：近实时，两个意思，从写入数据到数据可以被搜索到有一个小延迟（大概1秒）；基于es执行搜索和分析可以达到秒级
（2）Cluster：集群，包含多个节点，每个节点属于哪个集群是通过一个配置（集群名称，默认是elasticsearch）来决定的，对于中小型应用来说，刚开始一个集群就一个节点很正常
（3）Node：节点，集群中的一个节点，节点也有一个名称（默认是随机分配的），节点名称很重要（在执行运维管理操作的时候），默认节点会去加入一个名称为“elasticsearch”的集群，如果直接启动一堆节点，那么它们会自动组成一个elasticsearch集群，当然一个节点也可以组成一个elasticsearch集群
（4）Document&field：文档，es中的最小数据单元，一个document可以是一条客户数据，一条商品分类数据，一条订单数据，通常用JSON数据结构表示，每个index下的type中，都可以去存储多个document。一个document里面有多个field，每个field就是一个数据字段。
（5）Index：索引，包含一堆有相似结构的文档数据，比如可以有一个客户索引，商品分类索引，订单索引，索引有一个名称。一个index包含很多document，一个index就代表了一类类似的或者相同的document。比如说建立一个product index，商品索引，里面可能就存放了所有的商品数据，所有的商品document。
（6）Type：类型，每个索引里都可以有一个或多个type，type是index中的一个逻辑数据分类，一个type下的document，都有相同的field，比如博客系统，有一个索引，可以定义用户数据type，博客数据type，评论数据type。
（7）shard（分片）：单台机器无法存储大量数据，es可以将一个索引中的数据切分为多个shard，分布在多台服务器上存储。有了shard就可以横向扩展，存储更多数据，让搜索和分析等操作分布到多台服务器上去执行，提升吞吐量和性能。每个shard都是一个lucene index。
（8）replica（数据副本）：任何一个服务器随时可能故障或宕机，此时shard可能就会丢失，因此可以为每个shard创建多个replica副本。replica可以在shard故障时提供备用服务，保证数据不丢失，多个replica还可以提升搜索操作的吞吐量和性能。primary shard
（建立索引时一次设置，不能修改，默认5个），replica shard（随时修改数量，默认1个），默认每个索引10个shard，5个primary shard，5个replica shard，最小的高可用配置，是2台服务器。
primary shard （分布存储的index）
replica shard （副本）
高可用性，一个shard宕机，数据不丢，服务器继续提供
提升了搜索这类请求的吞吐亮和性能（读取数据可以发送到replica上面进行查询）
数据分布在多个shard，多个服务器上，所有的操作，都会在多台服务器上并行分布式执行，提升吞吐量和性能

4、elasticsearch和传统数据库对比
field 列
document 行
type 表
index 库

1、shard&replica机制再次梳理
（1）index包含多个shard
（2）每个shard都是一个最小工作单元，承载部分数据，lucene实例，完整的建立索引和处理请求的能力
（3）增减节点时，shard会自动在nodes中负载均衡
（4）primary shard和replica shard，每个document肯定只存在于某一个primary shard以及其对应的replica shard中，不可能存在于多个primary shard
（5）replica shard是primary shard的副本，负责容错，以及承担读请求负载
（6）primary shard的数量在创建索引的时候就固定了，replica shard的数量可以随时修改
（7）primary shard的默认数量是5，replica默认是1，默认有10个shard，5个primary shard，5个replica shard
（8）primary shard不能和自己的replica shard放在同一个节点上（否则节点宕机，primary shard和副本都丢失，起不到容错的作用），但是可以和其他primary shard的replica shard放在同一个节点上

乐观锁和悲观锁的区别
1、悲观锁，方便，直接枷锁，对应用程序来说，透明，不需要做额外的操作，缺点：并发能力很低，同已时间只能有一条线程操作数据（传递）
2、乐观锁的有点是：并发能力很高，不给数据加锁，大量线程并发操作，
缺点：麻烦，每次更新的时候，都要比对版本好，然后没有需要重新加载数据，再次修改，再写，这个过程，可能要重复好几次

批量查询操作mget get /index/type/mget get /index/mget {} get
                       {
                       ids:[]
                       }
批量增删改没一个操作要两个json串
post /_bulk
{}
{}
1.先创建index、type、document
2.进行相关操作

分词器的设置
切分词语，提升recall召回率
character filter 在一段文本进行分词之前，在进行预处理，比如罪常见的就是，过滤html标签
tokenizer 分词
token filter lowercase ，stop word 大小写忽略，去除停用词，同义词
一个分词器，将一段文本进行各种处理，最后处理好的结果才会拿去创建倒排索引
Set the shape to semi-transparent by calling set_trans(5)
standard analyzer：set, the, shape, to, semi, transparent, by, calling, set_trans, 5（默认的是standard）
simple analyzer ：set, the, shape, to, semi, transparent, by, calling, set, trans
whitespace analyzer：Set, the, shape, to, semi-transparent, by, calling, set_trans(5)
language analyzer 特定语言分词器 set, shape, semi, transpar, call, set_tran, 5

测试分词器的分词效果
GET /_analyzer
{
   "analyzer":"standard" 指定分词器
   "text":"需要分词的文本"
}

设置ik分词器 https://github.com/medcl/elasticsearch-analysis-ik网站下载对用elasticsearch版本的ik分词器
设置kibana，可以对es进行相关的操作
设置filter 进行同义词查询
PUT syno
{
"settings": {
"analysis": {
"filter": {
"my_filter":{
"type":"synonym",
"synonyms_path":"analysis/syno.dic"
}
},
"analyzer": {
"my_synonyms":{
"tokenizer":"ik_smart",
"filter":[
"lowercase",
"my_filter"]
}
}
}
}
}