ES架构和使用方法

最新推荐文章于 2024-08-21 19:39:24 发布

往事-随风

最新推荐文章于 2024-08-21 19:39:24 发布

阅读量1.5w

点赞数 4

文章标签： elasticsearch elk

本文链接：https://blog.csdn.net/ZhJinW/article/details/78901095

版权

本文详细介绍了Elasticsearch（ES）的架构、模块结构、分布式集群特性，包括其RESTful API、分片和复制机制。阐述了为何使用ES，如其基于Lucene的索引方案、高可用性和横向扩展性。还探讨了数据操作、同步MySQL数据库的方法，并提供了故障转移和集群扩展的实践策略。

摘要由CSDN通过智能技术生成

如果想深入了解ES内部原理和高级使用方法，可以直接查阅https://elasticsearch.cn/book/elasticsearch_definitive_guide_2.x/在线书籍

为什么要使用ES

首先ES是基于Lucene这个非常成熟的索引方案，另加上一些分布式的实现：集群，分片，复制等。

ES的优势主要可以看以下几个方面：

横向可扩展性：只需要增加一台服务器，做一点儿配置，启动一下ES进程就可以并入集群；
分片机制提供更好的分布性：同一个索引分成多个分片（sharding），分而治之的方式来提升处理效率；
高可用：提供复制（replica）机制，一个分片可以设置多个复制，使得某台服务器宕机的情况下，集群仍旧可以照常运行，并会把由于服务器宕机丢失的复制恢复到其它可用节点上；
提供了rest风格的接口，可以根据自身业务书写json请求而不去写解析和处理代码；
配合kibana，可视化非常好，可以动态刷新，看到实时数据变化；

ES模块结构

Gateway: 代表ES的持久化存储方式，包含索引信息，ClusterState(集群信息)，mapping，索引碎片信息，以及transaction log等

对于分布式集群来说，当一个或多个节点down掉了，能够保证我们的数据不能丢，最通用的解放方案就是对失败节点的数据进行复制，通过控制复制的份数可以保证集群有很高的可用性，复制这个方案的精髓主要是保证操作的时候没有单点，对一个节点的操作会同步到其他的复制节点上去。
ES一个索引会拆分成多个碎片，每个碎片可以拥有一个或多个副本（创建索引的时候可以配置）。
每个操作会自动路由主碎片所在的节点，在上面执行操作，并且同步到其他复制节点，通过使用“non blocking IO”模式所有复制的操作都是并行执行的，也就是说如果你的节点的副本越多，你网络上的流量消耗也会越大。复制节点同样接受来自外面的读操作，意义就是你的复制节点越多，你的索引的可用性就越强，对搜索的可伸缩行就更好，能够承载更多的操作
第一次启动的时候，它会去持久化设备读取集群的状态信息（创建的索引，配置等）然后执行应用它们（创建索引，创建mapping映射等），每一次shard节点第一次实例化加入复制组，它都会从长持久化存储里面恢复它的状态信息

Lucence Directory: 是lucene的框架服务发现以及选主 ZenDiscovery: 用来实现节点自动发现，还有Master节点选取，假如Master出现故障，其它的这个节点会自动选举，产生一个新的Master

Discovery：

节点启动后先ping（这里的ping是 Elasticsearch 的一个RPC命令。如果 discovery.zen.ping.unicast.hosts 有设置，则ping设置中的host，否则尝试ping localhost 的几个端口， Elasticsearch 支持同一个主机启动多个节点）
Ping的response会包含该节点的基本信息以及该节点认为的master节点
选举开始，先从各节点认为的master中选，规则很简单，按照id的字典序排序，取第一个
如果各节点都没有认为的master，则从所有节点中选择，规则同上。这里有个限制条件就是 discovery.zen.minimum_master_nodes，如果节点数达不到最小值的限制，则循环上述过程，直到节点数足够可以开始选举
最后选举结果是肯定能选举出一个master，如果只有一个local节点那就选出的是自己
如果当前节点是master，则开始等待节点数达到 minimum_master_nodes，然后提供服务, 如果当前节点不是master，则尝试加入master.
ES支持任意数目的集群（1-N）,所以不能像 Zookeeper/Etcd 那样限制节点必须是奇数，也就无法用投票的机制来选主，而是通过一个规则，只要所有的节点都遵循同样的规则，得到的信息都是对等的，选出来的主节点肯定是一致的. 但分布式系统的问题就出在信息不对等的情况，这时候很容易出现脑裂（Split-Brain）的问题，大多数解决方案就是设置一个quorum值，要求可用节点必须大于quorum（一般是超过半数节点），才能对外提供服务。而 Elasticsearch 中，这个quorum的配置就是 discovery.zen.minimum_master_nodes 。

memcached：

通过memecached协议来访问ES的接口,支持二进制和文本两种协议.通过一个名为transport-memcached插件提供
Memcached命令会被映射到REST接口，并且会被同样的REST层处理，memcached命令列表包括：get/set/delete/quit

River : 代表es的一个数据源，也是其它存储方式（如：数据库）同步数据到es的一个方法。它是以插件方式存在的一个es服务，通过读取river中的数据并把它索引到es中，官方的river有couchDB的，RabbitMQ的，Twitter的，Wikipedia。本文最后将介绍如何将mysql中的数据导入ES中