Elasticsearch学习笔记

NewBee.Mu

于 2022-09-22 19:28:11 发布

阅读量231

点赞数 1

分类专栏：注意事项知识点总结大数据文章标签： elasticsearch 学习搜索引擎

本文链接：https://blog.csdn.net/NewBeeMu/article/details/126991768

版权

知识点总结同时被 3 个专栏收录

200 篇文章 3 订阅

订阅专栏

注意事项

69 篇文章 2 订阅

订阅专栏

大数据

18 篇文章 0 订阅

订阅专栏

Elasticsearch学习笔记

1、什么是Elasticsearch
- 1.1、分析日志的用处
- 1.2、疑问一：搜索商品的时候为啥要用ES呢？用sql的like进行模糊查询，它不香吗？
2、基本概念

1、什么是Elasticsearch

ElasticSearch是一个分布式，高性能、高可用、可伸缩、RESTful 风格的搜索和数据分析引擎。通常作为Elastic Stack的核心来使用，Elastic Stack大致是如下这样组成的：
在这里插入图片描述
E：EalsticSearch 搜索和分析的功能

L：Logstach 搜集数据的功能，类似于flume（使用方法几乎跟flume一模一样），是日志收集系统

K：Kibana 数据可视化（分析），可以用图表的方式来去展示，文不如表，表不如图，是数据可视化平台
在这里插入图片描述
ES是一个近实时（NRT）的搜索引擎，一般从添加数据到能被搜索到只有很少的延迟（大约是1s），而查询数据是实时的。一般我们可以把ES配合logstash,kibana来做日志分析系统，或者是搜索方面的系统功能，比如在网上商城系统里实现搜索商品的功能也会用到ES。

1.1、分析日志的用处

假如一个分布式系统有 1000 台机器，系统出现故障时，我要看下日志，还得一台一台登录上去查看，是不是非常麻烦？

但是如果日志接入了 ELK 系统就不一样。比如系统运行过程中，突然出现了异常，在日志中就能及时反馈，日志进入 ELK 系统中，我们直接在 Kibana 就能看到日志情况。如果再接入一些实时计算模块，还能做实时报警功能。

这都依赖ES强大的反向索引功能，这样我们根据关键字就能查询到关键的错误日志了。

1.2、疑问一：搜索商品的时候为啥要用ES呢？用sql的like进行模糊查询，它不香吗？

我们假设一个场景：我们要买苹果吃，咱们想买A地特产的B款苹果，然后在搜索框输入A地B款苹果，这时候咱们希望搜索到所有的售卖A地B款苹果的商家，但是如果咱们技术上根据这个A地B款苹果使用sql的like模糊查询，是不能匹配到诸如A地特产B款苹果，A地正宗，果园直送精品B款苹果这类的不连续的店铺的。所以sql的like进行模糊查询来搜索商品还真不香！

2、基本概念

2.1、什么是搜索

百度，谷歌，必应。我们可以通过他们去搜索我们需要的东西。但是我们的搜索不只是包含这些，还有京东站内搜索啊。
互联网的搜索：电商网站。招聘网站。新闻网站。各种APP（百度外卖，美团等等）
windows系统的搜索,OA软件，淘宝SSM网站，前后台的搜索功能

总结：搜索无处不在。通过一些关键字，给我们查询出来跟这些关键字相关的信息

2.2、什么是全文检索

全文检索是指计算机索引程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时，检索程序就根据事先建立的索引进行查找，并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。

全文检索的方法主要分为按字检索和按词检索两种。按字检索是指对于文章中的每一个字都建立索引，检索时将词分解为字的组合。对于各种不同的语言而言，字有不同的含义，比如英文中字与词实际上是合一的，而中文中字与词有很大分别。按词检索指对文章中的词，即语义单位建立索引，检索时按词检索，并且可以处理同义项等。英文等西方文字由于按照空白切分词，因此实现上与按字处理类似，添加同义处理也很容易。中文等东方文字则需要切分字词，以达到按词索引的目的，关于这方面的问题，是当前全文检索技术尤其是中文全文检索技术中的难点，在此不做详述。

2.3、什么是倒排索引

以前是根据ID查内容，倒排索引之后是根据内容查ID，然后再拿着ID去查询出来真正需要的东西。
在这里插入图片描述

2.4、什么是Lucene

Lucene就是一个jar包，里面包含了各种建立倒排索引的方法，java开发的时候只需要导入这个jar包就可以开发了。

Lucene的介绍及使用

典型的用空间换时间。

2.5、ES 和 Lucene的区别

Lucene不是分布式的。
ES的底层就是Lucene，ES是分布式的

2.6、ES的优点

分布式的功能
数据高可用，集群高可用
API更简单
API更高级。
支持的语言很多
支持PB级别的数据
完成搜索的功能和分析功能

基于Lucene，隐藏了Lucene的复杂性，提供简单的API

ES的性能比HBase高，咱们的竞价引擎最后还是要存到ES中的。

2.7、搜索引擎原理

反向索引又叫倒排索引，是根据文章内容中的关键字建立索引。
搜索引擎原理就是建立反向索引。
Elasticsearch 在 Lucene 的基础上进行封装，实现了分布式搜索引擎。
Elasticsearch 中的索引、类型和文档的概念比较重要，类似于 MySQL 中的数据库、表和行。
Elasticsearch 也是 Master-slave 架构，也实现了数据的分片和备份。
Elasticsearch 一个典型应用就是 ELK 日志分析系统。

2.8、ES的作用

全文检索

类似 select * from product where product_name like ‘%牙膏%’

类似百度效果（电商搜索的效果）

结构化搜索

类似 select * from product where product_id = ‘1’

数据分析

类似 select count (*) from product

2.9、ES和mysql相关的基本概念的对比

ES	MYSQL
字段	列
文档	一行数据
类型（已废弃）	表
索引	数据库

关系型数据库中的数据库（DataBase），等价于ES中的索引（Index）
一个数据库下面有N张表（Table），等价于1个索引Index下面有N多类型（Type），
一个数据库表（Table）下的数据由多行（ROW）多列（column，属性）组成，等价于1个Type由多个文档（Document）和多Field组成。
在一个关系型数据库里面，schema定义了表、每个表的字段，还有表和字段之间的关系。与之对应的，在ES中：Mapping定义索引下的Type的字段处理规则，即索引如何建立、索引类型、是否保存原始索引JSON文档、是否压缩原始JSON文档、是否需要分词处理、如何进行分词处理等。
在数据库中的增insert、删delete、改update、查search操作等价于ES中的增PUT/POST、删Delete、改_update、查GET.

所谓ES里的数据其实就是指索引下的类型里面的JSON格式的数据。

2.10、概念详细解释

2.10.1、文档（Document）

我们知道Java是面向对象的，而Elasticsearch是面向文档的，也就是说文档是所有可搜索数据的最小单元。ES的文档就像MySql中的一条记录，只是ES的文档会被序列化成json格式，保存在Elasticsearch中；
这个json对象是由字段组成，字段就相当于Mysql的列，每个字段都有自己的类型（字符串、数值、布尔、二进制、日期范围类型）；
当我们创建文档时，如果不指定字段的类型，Elasticsearch会帮我们自动匹配类型；
每个文档都有一个ID，类似MySql的主键，咱们可以自己指定，也可以让Elasticsearch自动生成；
文档的json格式支持数组/嵌套，在一个索引（数据库）或类型（表）里面，你可以存储任意多的文档。

注意：虽然在实际存储上，文档存在于某个索引里，但是文档必须被赋予一个索引下的类型才可以。

2.10.2、类型（Type）

类型就相当于MySql里的表，我们知道MySql里一个库下可以有很多表，最原始的时候ES也是这样，一个索引下可以有很多类型，但是从6.0版本开始，type已经被逐渐废弃，但是这时候一个索引仍然可以设置多个类型，一直到7.0版本开始，一个索引就只能创建一个类型了（_doc）。这一点，大家要注意，网上很多资料都是旧版本的，没有对这点进行说明。

2.10.3、索引（Index）

索引就相当于MySql里的数据库，它是具有某种相似特性的文档集合。反过来说不同特性的文档一般都放在不同的索引里；
索引的名称必须全部是小写；
在单个集群中，可以定义任意多个索引；
索引具有mapping和setting的概念，mapping用来定义文档字段的类型，setting用来定义不同数据的分布。

2.10.4、节点（node）

一个节点就是一个ES实例，其实本质上就是一个java进程；
节点的名称可以通过配置文件配置，或者在启动的时候使用-E node.name=ropledata指定，默认是随机分配的。建议咱们自己指定，因为节点名称对于管理目的很重要，咱们可以通过节点名称确定网络中的哪些服务器对应于ES集群中的哪些节点；
ES的节点类型主要分为如下几种：
- Master Eligible节点：每个节点启动后，默认就是Master Eligible节点，可以通过设置node.master: false 来禁止。
- Master Eligible可以参加选主流程，并成为Master节点（当第一个节点启动后，它会将自己选为Master节点）；注意：每个节点都保存了集群的状态，只有Master节点才能修改集群的状态信息。
- Data节点：可以保存数据的节点。主要负责保存分片数据，利于数据扩展。
- Coordinating 节点：负责接收客户端请求，将请求发送到合适的节点，最终把结果汇集到一起
注意：每个节点默认都起到了Coordinating node的职责。一般在开发环境中一个节点可以承担多个角色，但是在生产环境中，还是设置单一的角色比较好，因为有助于提高性能。

2.10.5、分片（shard）

了解分布式或者学过mysql分库分表的应该对分片的概念比较熟悉，ES里面的索引可能存储大量数据，这些数据可能会超出单个节点的硬件限制。

为了解决这个问题，ES提供了将索引细分为多个碎片的功能，这就是分片。这里咱们可以简单去理解，在创建索引时，只需要咱们定义所需的碎片数量就可以了，其实每个分片都可以看作是一个完全功能性和独立的索引，可以托管在集群中的任何节点上。

2.10.6、疑问二：分片有什么好处和注意事项呢？

通过分片技术，咱们可以水平拆分数据量，同时它还支持跨碎片（可能在多个节点上）分布和并行操作，从而提高性能/吞吐量；
ES可以完全自动管理分片的分配和文档的聚合来完成搜索请求，并且对用户完全透明；
主分片数在索引创建时指定，后续只能通过Reindex修改，但是较麻烦，一般不进行修改。

2.10.7、副本（replica）

一个分布式的集群，难免会有一台或者多台服务器宕机，如果我们没有副本这个概念。就会造成我们的shard发生故障，无法提供正常服务。
我们为了保证数据的安全，我们引入了replica的概念，跟hdfs里面的概念是一个意思。
可以保证我们数据的安全。
在ES集群中，我们一模一样的数据有多份，能正常提供查询和插入的分片我们叫做 primary shard，其余的我们就管他们叫做 replica shard（备份的分片）
当我们去查询数据的时候，我们数据是有备份的，它会同时发出命令让我们有数据的机器去查询结果，最后谁的查询结果快，我们就要谁的数据（这个不需要我们去控制，它内部就自己控制了）

2.10.8、疑问三：副本分片有什么作用和注意事项呢？

当分片或者节点发生故障时提供高可用性。因此，需要注意的是，副本分片永远不会分配到复制它的原始或主分片所在的节点上；
可以提高扩展搜索量和吞吐量，因为ES允许在所有副本上并行执行搜索；
默认情况下，ES中的每个索引都分配5个主分片，并为每个主分片分配1个副本分片。主分片在创建索引时指定，不能修改，副本分片可以修改。

2.10.9、总结

在默认情况下，我们创建一个库的时候，默认会帮我们创建5个主分片（primary shrad）和5个副分片（replica shard），所以说正常情况下是有10个分片的。
同一个节点上面，副本和主分片是一定不会在一台机器上面的，就是拥有相同数据的分片，是不会在同一个节点上面的。
所以当你有一个节点的时候，这个分片是不会把副本存在这仅有的一个节点上的，当你新加入了一台节点，ES会自动的给你在新机器上创建一个之前分片的副本。

2.11、Elasticsearch的使用场景

2.11.1、场景—：使用Elasticsearch作为主要的后端

传统项目中，搜索引擎是部署在成熟的数据存储的顶部，以提供快速且相关的搜索能力。这是因为早期的搜索引擎不能提供耐用的存储或其他经常需要的功能，如统计。
在这里插入图片描述

Elasticsearch是提供持久存储、统计等多项功能的现代搜索引擎。
如果你开始一个新项目，我们建议您考虑使用Elasticsearch作为唯一的数据存储，以帮助保持你的设计尽可能简单。
此种场景不支持包含频繁更新、事务（transaction）的操作。

举例如下：新建一个博客系统使用es作为存储。

我们可以向ES提交新的博文；
使用ES检索、搜索、统计数据。

ES作为存储的优势：
如果一台服务器出现故障时会发生什么？你可以通过复制数据到不同的服务器以达到容错的目的。
注意：
整体架构设计时，需要我们权衡是否有必要增加额外的存储。

2.11.2、场景二：在现有系统中增加elasticsearch

由于ES不能提供存储的所有功能，一些场景下需要在现有系统数据存储的基础上新增ES支持。
在这里插入图片描述

举例1：ES不支持事务、复杂的关系（至少1.X版本不支持，2.X有改善，但支持的仍然不好），如果你的系统中需要上述特征的支持，需要考虑在原有架构、原有存储的基础上的新增ES的支持。

举例2：如果你已经有一个在运行的复杂的系统，你的需求之一是在现有系统中添加检索服务。一种非常冒险的方式是重构系统以支持ES。而相对安全的方式是：将ES作为新的组件添加到现有系统中。
如果你使用了如下图所示的SQL数据库和ES存储，你需要找到一种方式使得两存储之间实时同步。需要根据数据的组

mysql、oracle选择 logstash-input-jdbc 插件。
mongo选择 mongo-connector工具。

假设你的在线零售商店的产品信息存储在SQL数据库中。为了快速且相关的搜索，你安装Elasticsearch。
为了索引数据，您需要部署一个同步机制，该同步机制可以是Elasticsearch插件或你建立一个自定义的服务。此同步机制可以将对应于每个产品的所有数据和索引都存储在Elasticsearch，每个产品作为一个document存储（这里的document相当于关系型数据库中的一行/row数据）。

当在该网页上的搜索条件中输入“用户的类型”，店面网络应用程序通过Elasticsearch查询该信息。 Elasticsearch返回符合标准的产品documents，并根据你喜欢的方式来分类文档。排序可以根据每个产品的被搜索次数所得到的相关分数，或任何存储在产品document信息，例如：最新最近加入的产品、平均得分，或者是那些插入或更新信息。所以你可以只使用Elasticsearch处理搜索。这取决于同步机制来保持Elasticsearch获取最新变化。

2.11.3、场景三：使用elasticsearch和现有的工具

在一些使用情况下，您不必写一行代码就能通过elasticssearch完成一项工作。很多工具都可以与Elasticsearch一起工作，所以你不必到你从头开始编写。
例如，假设要部署一个大规模的日志框架存储，搜索，并分析了大量的事件。
如图下图，处理日志和输出到Elasticsearch，您可以使用日志记录工具，如rsyslog（www.rsyslog.com），Logstash（www.elastic.co/products/logstash），或Apache Flume（http://flume.apache.org）。
搜索和可视化界面分析这些日志，你可以使用Kibana（www.elastic.co/产品/ kibana）。
在这里插入图片描述

2.11.4、为什么那么多工具适配Elasticsearch？主要原因如下：

Elasticsearch是开源的。
Elasticsearch提供了JAVA API接口。
Elasticsearch提供了RESTful API接口（不管程序用什么语言开发，任何程序都可以访问）
更重要的是，REST请求和应答是典型的JSON（JavaScript对象符号）格式。通常情况下，一个REST请求包含一个JSON文件，其回复都也是一个JSON文件。