分布式协调系统 Zookeeper
Zookeeper 是 Apache 开源的一个顶级项目,目的是为分布式应用提供协调服务,当然 Zookeeper 本身也是分布式的。
而从设计模式的角度来理解:Zookeeper 是一个基于观察者模式设计的 分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接收观察者的注册。一旦数据的状态发生变化,Zookeeper 就会通知那些已经注册的观察者,以便它们能够及时做出反应。
所以 Zookeeper 可以看作是一个 文件系统 + 通知机制。文件系统指的是 Zookeeper 可以存储数据,尽管数据量比较少,但还是像文件一样可以存储的;而通知机制指的是当数据有变化,会立即通知观察者。
1.Zookeeper 的特点
那么 Zookeeper 都有哪些特点呢?
- 1️⃣ Zookeeper 本身也是分布式的,可以组成集群。Zookeeper 集群由一个领导者节点(
Leader
)和多个追随者节点(Follower
)组成,Leader 负责接收写请求,Follower 负责和 Leader 之间进行数据同步并接收读请求。 - 2️⃣ 集群中只要有半数以上的节点存活,Zookeeper 集群就能正常服务,所以集群内部的节点数量最好是奇数个。
- 3️⃣ Zookeeper 是 CP 模型,在一致性(
Consistency
)和可用性(Availability
)之间选择了一致性,因此集群里面的数据是全局一致的,每个 Server 都保存了一份相同的数据副本。客户端无论连接到哪一个 Server,数据都是一致的。这也意味着 Leader 只有将新数据同步给所有的 Follower 之后,整个 Zookeeper 集群才能对外提供服务,否则客户端就有可能读到旧数据。因为根据 CAP 理论,在保证 P(Partition tolerance
)的前提下,C 和 A 是不可兼顾的,至于选择哪一个则看是否对数据有强一致性的要求。而 Zookeeper 存储的数据一般都不大,所以选择了一致性。 - 4️⃣ 写请求顺序进行,来自同一个 Client 的写请求按其发送顺序依次执行。
- 5️⃣ 实时性,Client 可以很快地读到最新数据。虽然 Leader 和 Follower 之间的数据同步需要一定时间,但 Zookeeper 保存的数据量很小,因此同步速度非常快。
2.Zookeeper 的数据结构
Zookeeper 数据结构和 UNIX 文件系统很类似,整体上可以看做是一棵树,节点被称为 ZNode。每个 ZNode 默认能够存储 1MB 的数据,因为 Zookeeper 是 CP 模型,所以它不适合存储大量的数据,只适合存储一些简单的配置信息。此外,每个节点都可以通过路径进行唯一标识,我们通过 ZNode 的路径即可获取某个 ZNode 存储的数据。
整体还是很好理解的,但是要明白,ZNode 能够存储的数据量比较少,不应该超过 1MB。
3.Zookeeper 的应用场景
Zookeeper 在生产上都能解决哪些问题呢?其实能解决的问题还蛮多的,比如 统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡 等等。下面一个一个介绍。
3.1 统一命名服务
在分布式环境下,经常需要对应用/服务进行统一命名,便于识别。例如:IP 不容易记住,但是域名容易记住。
当访问域名的时候,会自动转发到某个服务器当中。
3.2 统一配置管理
分布式环境下,配置文件同步非常常见。一个集群中,所有节点的配置信息是一致的,对配置文件修改之后,希望能够快速同步到各个节点上。比如 Kafka 集群,当然 Kafka 自带 Zookeeper,但是我们一般不用自带的。
配置管理可交由 Zookeeper 实现,可将配置信息写入 Zookeeper 的一个 ZNode,各个客户端监听这个 ZNode。一旦 ZNode 中的数据被修改,Zookeeper 将通知各个客户端,这样一来每个客户端读到的配置信息都是一致的。
3.3 统一集群管理
分布式环境中,实时掌握每个节点的状态是必要的,这样便可根据节点的实时状态做出一些调整。
而 Zookeeper 可以实现实时监控节点的变化,通过将节点信息写入 Zookeeper 的一个 ZNode,监听这个 ZNode 便可获取它的实时状态变化。
此外每一个客户端的状态也可以写到节点上面,只要状态发生变化,就会更新节点上客户端的数据。只要数据发生更新,会立刻同步到其他的节点上,从而通知其他的客户端。
3.4 服务器动态上下线
客户端能实时洞察到服务器上线的情况,还是最开始说的,如果某台服务器宕机,比如 Server3。那么客户端就会被 Zookeeper 通知,之后就不会再请求 Server3 了。
当然这只是宕机的情况,如果 Server3 修好了重新上线,那么 Zookeeper 也要通知客户端。客户端会再次重新注册监听,之后仍然可以访问 Server3。
3.5 软负载均衡
在 Zookeeper 中记录每台服务器的访问数,让访问数最少的服务器去处理最新的客户端请求。
当新的客户端来访问的时候,会自动分发到访问次数比较少的服务器上。也就是类似 Nginx 负载均衡的效果,让每一台服务器的压力都不会那么大。