ZooKeeper
是一个高可用的分布式数据管理与系统协调框架。基于对Paxos
算法的实现,使该框架保证了分布式环境中数据的强一致性,也正是基于这样的特性,使得ZooKeeper
解决很多分布式问题。网上对ZK的应用场景也有不少介绍,本文将结合作者身边的项目例子,系统地对ZK的应用场景进行一个分门归类的介绍。
值得注意的是,ZK并非天生就是为这些应用场景设计的,都是后来众多开发者根据其框架的特性,利用其提供的一系列API接口(或者称为原语集),摸索出来的典型使用方法。因此,也非常欢迎读者分享你在ZK使用上的奇技淫巧。
ZooKeeper数据模型
Zookeeper 会维护一个具有层次关系的数据结构,它非常类似于一个标准的文件系统,如下图:
![这里写图片描述](https://i-blog.csdnimg.cn/blog_migrate/27ea6f340a1d15e3dab10b06b29e34c8.png)
Zookeeper 这种数据结构有如下这些特点:
- 每个子目录项如 NameService 都被称作为 znode,这个 znode 是被它所在的路径唯一标识,如 Server1 这个 znode 的标识为 /NameService/Server1;
- znode 可以有子节点目录,并且每个 znode 可以存储数据,注意 EPHEMERAL 类型的目录节点不能有子节点目录;
- znode 是有版本的,每个 znode 中存储的数据可以有多个版本,也就是一个访问路径中可以存储多份数据;
- znode 可以是临时节点,一旦创建这个 znode 的客户端与服务器失去联系,这个 znode 也将自动删除,Zookeeper 的客户端和服务器通信采用长连接方式,每个客户端和服务器通过心跳来保持连接,这个连接状态称为 session,如果 znode 是临时节点,这个 session 失效,znode 也就删除了;
- znode 的目录名可以自动编号,如 App1 已经存在,再创建的话,将会自动命名为 App2;
- znode 可以被监控,包括这个目录节点中存储的数据的修改,子节点目录的变化等,一旦变化可以通知设置监控的客户端,这个是 Zookeeper 的核心特性,Zookeeper 的很多功能都是基于这个特性实现的。
ZooKeeper的应用场景
Zookeeper 总体结构
Zookeeper 服务自身组成一个集群(2n+1个服务允许n个失效)。Zookeeper 服务有两个角色,一个是 leader,负责写服务和数据同步,剩下的是 follower,提供读服务,leader 失效后会在 follower 中重新选举新的 leader。Zookeeper 逻辑图如下:
![这里写图片描述](https://i-blog.csdnimg.cn/blog_migrate/1ea5d1c38395314bab6bd56260b608d1.png)
ZooKeeper 的客户端-服务器架构
集群特性:
- 客户端可以连接到每个server,每个server的数据完全相同。
- 每个follower都和leader有连接,接受leader的数据更新操作。
- Server记录事务日志和快照到持久存储。
- 大多数server可用,整体服务就可用。
Zookeeper特点:
- 顺序一致性:按照客户端发送请求的顺序更新数据。
- 原子性:更新要么成功,要么失败,不会出现部分更新。
- 单一性 :无论客户端连接哪个server,都会看到同一个视图。
- 可靠性:一旦数据更新成功,将一直保持,直到新的更新。
- 及时性:客户端会在一个确定的时间内得到最新的数据。
Zookeeper运用场景:
![这里写图片描述](https://i-blog.csdnimg.cn/blog_migrate/bef7c5c7094503382fa5f5af4e6a4269.png)
下面分别介绍这些应用场景。
场景一:数据发布与订阅(配置中心)
典型场景描述(ZK特性,使用方法)
发布与订阅模型,即所谓的配置中心
,顾名思义就是发布者将数据发布到ZK节点上,供订阅者动态获取数据,实现配置信息的集中式管理和动态更新。例如全局的配置信息,服务式服务框架的服务地址列表等就非常适合使用。
具体使用
1、应用中用到的一些配置信息放到ZK上进行集中管理
这类场景通常是这样:应用在启动的时候会主动来获取一次配置,同时,在节点上注册一个Watcher
,这样一来,以后每次配置有更新的时候,都会实时通知到订阅的客户端,从来达到获取最新配置信息的目的。
2、分布式搜索服务
分布式搜索服务中,索引的元信息和服务器集群机器的节点状态存放在ZK的一些指定节点,供各个客户端订阅使用。
3、分布式日志收集系统
这个系统的核心工作是收集分布在不同机器的日志。收集器通常是按照应用来分配收集任务单元,因此需要在ZK上创建一个以应用名作为path的节点P,并将这个应用的所有机器ip,以子节点的形式注册到节点P上,这样一来就能够实现机器变动的时候,能够实时通知到收集器调整任务分配。
4、系统中有些信息需要动态获取
系统中有些信息需要动态获取,并且还会存在人工手动去修改这个信息的发问。通常是暴露出接口,例如JMX接口,来获取一些运行时的信息。引入ZK之后,就不用自己实现一套方案了,只要将这些信息存放到指定的ZK节点上即可。
注意:在上面提到的应用场景中,有个默认前提是:
数据量很小
,但是数据更新可能会比较快
的场景。
应用举例
例如:同一个应用系统需要多台 PC Server 运行,但是它们运行的应用系统的某些配置项是相同的,如果要修改这些相同的配置项,那么就必须同时修改每台运行这个应用系统的 PC Server,这样非常麻烦而且容易出错。将配置信息保存在 Zookeeper 的某个目录节点中,然后将所有需要修改的应用机器监控配置信息的状态,一旦配置信息发生变化,每台应用机器就会收到 Zookeeper 的通知,然后从 Zookeeper 获取新的配置信息应用到系统中。ZooKeeper配置管理服务如下图所示:
![这里写图片描述](https://i-blog.csdnimg.cn/blog_migrate/ce0569fafe11e3945b339eb87ec46828.png)
配置管理结构图
Zookeeper 很容易实现这种集中式的配置管理
,比如将所需要的配置信息
放到 /Configuration 节点上,集群中所有机器一启动就会通过Client对 /Configuration 这个节点进行监控【zk.exist("/Configuration″,true)
】,并且实现 Watcher 回调方法process()
,那么在 zookeeper 上 /Configuration 节点下数据发生变化的时候,每个机器都会收到通知,Watcher 回调方法将会被执行,那么应用再取下数据即可【zk.getData("/Configuration″,false,null)
】。
场景二:负载均衡
典型场景描述(ZK特性,使用方法)
这里说的负载均衡是指软负载均衡
。在分布式环境中,为了保证高可用性,通常同一个应用或同一个服务的提供方都会部署多份,达到对等服务。而消费者就须要在这些对等的服务器中选择一个来执行相关的业务逻辑,其中比较典型的是消息中间件中的生产者,消费者负载均衡。
具体使用
消息中间件中发布者和订阅者的负载均衡。linkedin开源的 KafkaMQ 和阿里开源的 metaq 都是通过 zookeeper 来做到生产者、消费者的负载均衡。这里以 metaq 为例如讲下:
生产者负载均衡
metaq
发送消息的时候,生产者在发送消息的时候必须选择一台 broker
上的一个分区来发送消息,因此 metaq 在运行过程中,会把所有 broker
和对应的分区信息全部注册到 ZK 指定节点上,默认的策略是一个依次轮询的过程,生产者在通过 ZK 获取分区列表之后,会按照 brokerId
和 partition
的顺序排列组织成一个有序的分区列表,发送的时候按照从头到尾循环往复的方式选择一个分区来发送消息。
消费负载均衡
在消费过程中,一个消费者会消费一个或多个分区中的消息,但是一个分区只会由一个消费者来消费。MetaQ 的消费策略是:
- 每个分区针对同一个 group 只挂载一个消费者;
- 如果同一个 group 的消费者数目大于分区数目,则多出来的消费者将不参与消费;
- 如果同一个 group 的消费者数目小于分区数目,则有部分消费者需要额外承担消费任务。
在某个消费者故障或者重启等情况下,其他消费者会感知到这一变化(通过 zookeeper watch
消费者列表),然后重新进行负载均衡,保证所有的分区都有消费者进行消费。
场景三:统一命名服务(Naming Service)
典型场景描述(ZK特性,使用方法)
分布式应用中,通常需要有一套完整的命名规则,既能够产生唯一的名称又便于人识别和记住,通常情况下用树形的名称结构是一个理想的选择,树形的名称结构是一个有层次的目录结构,既对人友好又不会重复。说到这里你可能想到了 JNDI,没错 Zookeeper 的 Name Service 与 JNDI 能够完成的功能是差不多的,它们都是将有层次的目录结构关联到一定资源上,但是 Zookeeper 的 Name Service 更加是广泛意义上的关联,也许你并不需要将名称关联到特定资源上,你可能只需要一个不会重复名称,就像数据库中产生一个唯一的数字主键一样。
具体使用
在分布式系统中,通过使用命名服务,客户端应用能够根据指定的名字来获取资源服务的地址
,提供者等信息
。被命名的实体通常可以是集群中的机器
,提供的服务地址
,进程对象
等等,这些我们都可以统称他们为名字(Name)。其中较为常见的就是一些分布式服务框架中的服务地址列表
。通过调用ZK提供的创建节点的API,能够很容易创建一个全局唯一的path,这个path就可以作为一个名称。Name Service 已经是Zookeeper 内置的功能,你只要调用 Zookeeper 的 API 就能实现。如调用 create 接口就可以很容易创建一个目录节点。
应用举例
阿里巴巴集团开源的分布式服务框架 Dubbo 中使用 ZooKeeper
来作为其命名服务,维护全局的服务地址列表,点击这里查看Dubbo开源项目。在Dubbo实现中:
服务提供者在启动的时候,向 ZK 上的指定节点/dubbo/${serviceName}/providers
目录下写入自己的URL地址,这个操作就完成了服务的发布。服务消费者启动的时候,订阅/dubbo/${serviceName}/providers
目录下的提供者URL地址, 并向/dubbo/${serviceName} /consumers
目录下写入自己的URL地址。
注意,所有向 ZK 上注册的地址都是
临时节点
,这样就能够保证服务提供者和消费者能够自动感应资源的变化。
另外,Dubbo还有针对服务粒度的监控,方法是订阅/dubbo/${serviceName}
目录下所有提供者和消费者的信息。
场景四:分布式通知/协调(Distribution of notification/coordination)
典型场景描述(ZK特性,使用方法)
ZooKeeper
中特有watcher注册
与异步通知机制
,能够很好的实现分布式环境下不同系统之间的通知与协调,实现对数据变更的实时处理。使用方法通常是不同系统都对 ZK 上同一个 znode 进行注册,监听 znode 的变化(包括 znode 本身内容及子节点的),其中一个系统 update 了 znode,那么另一个系统能够收到通知,并作出相应处理
具体使用
1、另一种心跳检测机制
检测系统
和被检测系统
之间并不直接关联起来,而是通过zk上某个节点关联,大大减少系统耦合。
2、另一种系统调度模式
某系统有控制台
和推送系统
两部分组成,控制台的职责是控制推送系统进行相应的推送工作。管理人员在控制台作的一些操作,实际上是修改了ZK上某些节点的状态,而ZK就把这些变化通知给他们注册Watcher的客户端,即推送系统,于是,作出相应的推送任务。
3、另一种工作汇报模式
一些类似于任务分发系统
,子任务启动后,到 zk 来注册一个临时节点,并且定时将自己的进度进行汇报(将进度写回这个临时节点),这样任务管理者就能够实时知道任务进度。
总之,使用 zookeeper 来进行分布式通知和协调能够大大降低系统之间的耦合。
场景五:集群管理与Master选举
典型场景描述(ZK特性,使用方法)
1、集群机器监控
这通常用于那种对集群中机器状态,机器在线率有较高要求的场景,能够快速对集群中机器变化作出响应。这样的场景中,往往有一个监控系统,实时检测集群机器是否存活。过去的做法通常是:监控系统通过某种手段(比如ping)定时检测每个机器,或者每个机器自己定时向监控系统汇报“我还活着”。 这种做法可行,但是存在两个比较明显的问题:
- 集群中机器有变动的时候,牵连修改的东西比较多;
- 有一定的延时。
利用ZooKeeper
的两个特性,就可以实施另一种集群机器存活性监控系统:
- 客户端在节点 x 上注册一个Watcher,那么如果 x 的子节点变化了,会通知该客户端;
- 创建
EPHEMERAL
类型的节点,一旦客户端和服务器的会话结束或过期,那么该节点就会消失。
例如,监控系统在 /clusterServers
节点上注册一个Watcher,以后每动态加机器,那么就往 /clusterServers
下创建一个 EPHEMERAL
类型的节点:/clusterServers/{hostname}
。 这样,监控系统就能够实时知道机器的增减情况,至于后续处理就是监控系统的业务了。
2、Master 选举则是 zookeeper 中最为经典的应用场景了
在分布式环境中,相同的业务应用分布在不同的机器上,有些业务逻辑(例如一些耗时的计算,网络I/O处理),往往只需要让整个集群中的某一台机器进行执行,其余机器可以共享这个结果,这样可以大大减少重复劳动,提高性能,于是这个 master 选举便是这种场景下的碰到的主要问题。
利用ZooKeeper中两个特性,就可以实施另一种集群中Master选举:
- 利用
ZooKeeper
的强一致性,能够保证在分布式高并发情况下节点创建的全局唯一性,即:同时有多个客户端请求创建/currentMaster
节点,最终一定只有一个客户端请求能够创建成功。利用这个特性,就能很轻易的在分布式环境中进行集群选取了。 - 另外,这种场景演化一下,就是动态
Master
选举。这就要用到EPHEMERAL_SEQUENTIAL
类型节点的特性了。
上文中提到,所有客户端创建请求,最终只有一个能够创建成功。在这里稍微变化下,就是允许所有请求都能够创建成功,但是得有个创建顺序,于是所有的请求最终在 ZK 上创建结果的一种可能情况是这样:/currentMaster/{sessionId}-1
,/currentMaster/{sessionId}-2
,/currentMaster/{sessionId}-3
….. 每次选取序列号最小的那个机器作为 Master,如果这个机器挂了,由于他创建的节点会马上消失,那么之后最小的那个机器就是 Master 了。
应用举例
1、集群监控
应用集群中,我们常常需要让每一个机器知道集群中或依赖的其他某一个集群中哪些机器是活着的,并且在集群机器因为宕机,网络断链等原因能够不在人工介入的情况下迅速通知到每一个机器,Zookeeper 能够很容易的实现集群管理的功能,如有多台 Server 组成一个服务集群,那么必须要一个”总管”知道当前集群中每台机器的服务状态,一旦有机器不能提供服务,集群中其它集群必须知道,从而做出调整重新分配服务策略。同样当增加集群的服务能力时,就会增加一台或多台 Server,同样也必须让”总管”知道,这就是ZooKeeper的集群监控功能。
![这里写图片描述](https://i-blog.csdnimg.cn/blog_migrate/3653e9ca9d6d1af80bfd56861d424f13.png)
比如我在zookeeper服务器端有一个znode叫/Configuration,那么集群中每一个机器启动的时候都去这个节点下创建一个EPHEMERAL类型的节点,比如server1创建/Configuration /Server1,server2创建/Configuration /Server2,然后Server1和Server2都watch /Configuration 这个父节点,那么也就是这个父节点下数据或者子节点变化都会通知对该节点进行watch的客户端。因为EPHEMERAL类型节点有一个很重要的特性,就是客户端和服务器端连接断掉或者session过期就会使节点消失,那么在某一个机器挂掉或者断链的时候,其对应的节点就会消 失,然后集群中所有对/Configuration进行watch的客户端都会收到通知,然后取得最新列表即可。
2、Master选举
Zookeeper 不仅能够维护当前的集群中机器的服务状态,而且能够选出一个”总管”,让这个总管来管理集群,这就是 Zookeeper 的另一个功能 Leader Election。Zookeeper 如何实现 Leader Election,也就是选出一个 Master Server。和前面的一样每台 Server 创建一个 EPHEMERAL 目录节点,不同的是它还是一个 SEQUENTIAL 目录节点,所以它是个 EPHEMERAL_SEQUENTIAL 目录节点。之所以它是 EPHEMERAL_SEQUENTIAL 目录节点,是因为我们可以给每台 Server 编号,我们可以选择当前是最小编号的 Server 为 Master,假如这个最小编号的 Server 死去,由于是 EPHEMERAL 节点,死去的 Server 对应的节点也被删除,所以当前的节点列表中又出现一个最小编号的节点,我们就选择这个节点为当前 Master。这样就实现了动态选择 Master,避免了传统意义上单 Master 容易出现单点故障的问题。
具体使用
1、搜索系统
在搜索系统中,如果集群中每个机器都生成一份全量索引,不仅耗时,而且不能保证彼此之间索引数据一致。因此让集群中的Master来进行全量索引的生成,然后同步到集群中其它机器。另外,Master选举的容灾措施是,可以随时进行手动指定master,就是说应用在zk无法获取master信息时,可以通过比如http方式,向一个地方获取master。
2、Hbase
在Hbase
中,也是使用ZooKeeper
来实现动态HMaster
的选举。在 Hbase 实现中,会在 ZK 上存储一些 ROOT 表的地址和 HMaster 的地址,HRegionServer 也会把自己以临时节点(Ephemeral)的方式注册到 Zookeeper 中,使得 HMaster 可以随时感知到各个 HRegionServer 的存活状态,同时,一旦 HMaster 出现问题,会重新选举出一个 HMaster 来运行,从而避免了 HMaster 的单点问题。
场景六:分布式锁(Distribute Lock)
典型场景描述(ZK特性,使用方法)
分布式锁,这个主要得益于 ZooKeeper 为我们保证了数据的强一致性
,即用户只要完全相信每时每刻,zk集群中任意节点(一个zk server)上的相同znode的数据是一定是相同的。锁服务可以分为两类,一个是保持独占
,另一个是控制时序
。
1、保持独占
所谓保持独占,就是所有试图来获取这个锁的客户端,最终只有一个可以成功获得这把锁。通常的做法是把 zk 上的一个 znode 看作是一把锁,通过create znode
的方式来实现。所有客户端都去创建 /distribute_lock
节点,最终成功创建的那个客户端也即拥有了这把锁。
2、控制时序
控制时序,就是所有试图来获取这个锁的客户端,最终都是会被安排执行,只是有个全局时序了。做法和上面基本类似,只是这里 /distribute_lock
已经预先存在,客户端在它下面创建临时有序节点
(这个可以通过节点的属性控制:CreateMode.EPHEMERAL_SEQUENTIAL
来指定)。Zk 的父节点(/distribute_lock)维持一份sequence
,保证子节点创建的时序性,从而也形成了每个客户端的全局时序。
应用举例
共享锁在同一个进程中很容易实现,但是在跨进程或者在不同 Server 之间就不好实现了。Zookeeper 却很容易实现这个功能,实现方式也是需要获得锁的 Server 创建一个 EPHEMERAL_SEQUENTIAL
目录节点,然后调用 getChildren
方法获取当前的目录节点列表中最小的目录节点是不是就是自己创建的目录节点,如果正是自己创建的,那么它就获得了这个锁,如果不是那么它就调用 exists(String path, boolean watch)
方法并监控 Zookeeper 上目录节点列表的变化,一直到自己创建的节点是列表中最小编号的目录节点,从而获得锁,释放锁很简单,只要删除前面它自己所创建的目录节点就行了。
![这里写图片描述](https://i-blog.csdnimg.cn/blog_migrate/ded6a44182b426d6b4192c953a753817.png)
场景七:分布式队列
典型场景描述(ZK特性,使用方法)
Zookeeper 可以处理两种类型的队列:
- 当一个队列的成员都聚齐时,这个队列才可用,否则一直等待所有成员到达,这种是
同步队列
。 - 队列按照
FIFO
方式进行入队和出队操作,例如实现生产者和消费者模型。
同步队列
用 Zookeeper 实现的实现思路如下:
创建一个父目录 /synchronizing,每个成员都监控(Set Watch)标志位目录 /synchronizing/start 是否存在,然后每个成员都加入这个队列,加入队列的方式就是创建 /synchronizing/member_i 的临时目录节点,然后每个成员获取 /synchronizing 目录的所有目录节点,也就是 member_i。判断 i 的值是否已经是成员的个数,如果小于成员个数等待 /synchronizing/start 的出现,如果已经相等就创建 /synchronizing/start。
用下面的流程图更容易理解:
![这里写图片描述](https://i-blog.csdnimg.cn/blog_migrate/5425d97faa6a498e9153358eb7a22b11.png)
FIFO
队列用 Zookeeper 实现思路如下:
实现的思路也非常简单,就是在特定的目录下创建 SEQUENTIAL
类型的子目录 /queue_i,这样就能保证所有成员加入队列时都是有编号的,出队列时通过 getChildren( )
方法可以返回当前所有的队列中的元素,然后消费其中最小的一个,这样就能保证 FIFO。
ZooKeeper 实际应用
假设我们的集群有:
- 20个搜索引擎的服务器:每个负责总索引中的一部分的搜索任务。
- 搜索引擎的服务器中的15个服务器现在提供搜索服务。
- 5个服务器正在生成索引。
- 一个总服务器:负责向这20个搜索引擎的服务器发出搜索请求并合并结果集。
- 一个备用的总服务器:负责当总服务器宕机时替换总服务器。
- 一个web的cgi:向总服务器发出搜索请求。
使用Zookeeper可以保证:
- 总服务器:自动感知有多少提供搜索引擎的服务器,并向这些服务器发出搜索请求。
- 备用的总服务器:宕机时自动启用备用的总服务器。
- web的cgi:能够自动地获知总服务器的网络地址变化。
实现如下:
- 提供搜索引擎的服务器都在 Zookeeper 中创建 znode,
zk.create("/search/nodes/node1", "hostname".getBytes(), Ids.OPEN_ACL_UNSAFE, CreateFlags.EPHEMERAL);
- 总服务器可以从 Zookeeper 中获取一个 znode 的子节点的列表,
zk.getChildren("/search/nodes", true);
- 总服务器遍历这些子节点,并获取子节点的数据生成提供搜索引擎的服务器列表;
- 当总服务器接收到子节点改变的事件信息,重新返回第二步;
- 总服务器在 Zookeeper 中创建节点,
zk.create("/search/master", "hostname".getBytes(), Ids.OPEN_ACL_UNSAFE, CreateFlags.EPHEMERAL);
- 备用的总服务器监控Zookeeper中的 “/search/master” 节点。当这个 znode 的节点数据改变时,把自己启动变成总服务器,并把自己的网络地址数据放进这个节点。
- web 的 cgi 从 Zookeeper 中”/search/master”节点获取总服务器的网络地址数据,并向其发送搜索请求。
- web 的 cgi 监控 Zookeeper 中的”/search/master”节点,当这个 znode 的节点数据改变时,从这个节点获取总服务器的网络地址数据,并改变当前的总服务器的网络地址。
这20个搜索引擎的服务器,经常要让正在提供搜索服务的服务器停止提供服务开始生成索引,或生成索引的服务器已经把索引生成完成可以搜索提供服务了。