节点作用
ES 是一个分布式全文检索引擎,既然是分布式那一定是设计多个节点甚至多个集群。为什么需要分布式呢?试想一下,如果 ES 节点只设计成一个,那么这个节点会涉及哪些工作呢?
- 首先该节点应该具备响应用户的读写操作
- 该节点应该具备存储数据的能力
- ES应该具备协调多个用户集体请求的操作
- 另外 ES 会自动映射用户输入的数据类型,因此ES应该具备自动映射数据类型的操作
节点优化
当然这些只是这个节点最基本,最应该做到的功能,节点应该具备的功能绝不会仅限于此。这么多工作都让这个单个节点来做,服务器撑得住恐怕这个节点也不乐意了。当多个用户触发写操作,节点会协调多个用户的请求,然后再把写的数据进行类型转换,然后再把数据写到磁盘中。整个过程,可以说任何一个过程都能够轻易的达到瓶颈。
- 请求响应瓶颈:这个不难理解,如果请求过多,服务器宕机也不为过
- 读写瓶颈:磁盘的写入能力是有限的,也就是经常说的 I/O 瓶颈
- 协调请求以及自动映射数据类型:这个瓶颈来自于服务器 CPU 性能,CPU 需要协调多个线程来做这些事
节点分工
这个单个节点可以把它比喻为牛批的全栈工程师,啥都会,啥都干,但是一个的精力总是有限的,现在不是一个人单打独斗就能解决问题,需要有一个好的 Team 才能够成就伟大的事。ES 也是如此,既然单个节点不能够满足需求,那就按照任务多分配几个节点,将任务具体到节点,不同的节点负责不同的任务。
因此 ES 为分配不同的任务,定义了以下几个节点角色:Master,Data Node,Coordinating Node,Ingest Node
Master 节点:每个 ES 节点启动之前都会有个默认配置 node.master:true ,也就是说每个节点都有可能成为 Master 节点,这些节点被称作 Master-eligible nodes ,就是合格的有资格成为 Master 节点的节点。
当然 Master 只能有一个,所以会通过选举的方法对这启动的节点选举,被选中的节点才会成为 Master 节点。 Master 节点主要是负责维护集群的状态,像所有节点的信息,所有的索引和它相关的 Mapping 关系,配置信息,分片的路由等。既然 Master 节点维护了这么重要的信息,玩意它挂了怎么办?
挂了的话,将会对其他的有资格成为 Master 节点的节点重新选举出另一个 Master 节点,因此这就说明了其他 Master-eligible nodes 也会保存集群信息,但是只有 Master 节点有权限能够修改,试想如果其他节点也能修改的话,这将会导致数据不一致的问题。
Data Node 节点:这个节点从字面上就很容易理解,数据节点,这个节点主要负责数据的存储,在数据扩展上起到了至关重要的作用。也就是说读写数据都会找到相应的 Data Node 节点。
Coordinating Node 节点:协调节点主要负责协调客户端的请求,将接收到的请求分发给合适的节点,并把结果汇集到一起。比如客户端请求查询某个索引的数据,协调节点将会把请求分发给保存相关的数据的 DataNode 节点,找到相应的分片,并把查询到的结果都汇集返回。并且每个节点都默认起到了 Coordinating Node 的职责。
Ingest Node: Ingest node 专门对索引的文档做预处理,发生在对真实文档建立索引之前。在建立索引对文档预处理之前,先定义一个管道(pipeline),管道里指定了一系列的处理器。每个处理器能够把文档按照某种特定的方式转换。比如在管道里定义一个从某个文档中移除字段的处理器,紧接着一个重命名字段的处理器。集群的状态也会被存储到配置的管道内。
定义一个管道,简单的在索引或者bulk request(一种批量请求方法)操作上定义 pipeline
参数,这样 ingest node 就会知道哪个管道在使用。这个节点在使用过程中用的也不多,所以大概了解一下就行。
小结
本次课讲述了 ES 的不同节点角色功能,从简单的单节点 ES 可能会遇到的问题,引述到需要分布式才能解决这些问题,然后分布式需要不同的角色功能协助才能够完成,因此我们明白了为什么 ES 节点需要哪些角色,以及这些角色能起到什么作用?