Zookeeper（万字解析ZooKeeper）

最新推荐文章于 2024-05-06 20:21:36 发布

光影和弦一抹春色

最新推荐文章于 2024-05-06 20:21:36 发布

阅读量342

点赞数

分类专栏：分布式 Zookeeper

本文链接：https://blog.csdn.net/qq_43614498/article/details/105267250

版权

分布式同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

Zookeeper

3 篇文章 0 订阅

订阅专栏

一什么是Zookeeper?
1.1 官网解释：
What is ZooKeeper?
ZooKeeper is a centralized service for maintaining configuration information, naming, providing distributed synchronization, and providing group services. All of these kinds of services are used in some form or another by distributed applications. Each time they are implemented there is a lot of work that goes into fixing the bugs and race conditions that are inevitable. Because of the difficulty of implementing these kinds of services, applications initially usually skimp on them, which make them brittle in the presence of change and difficult to manage. Even when done correctly, different implementations of these services lead to management complexity when the applications are deployed.
什么是ZooKeeper？
ZooKeeper是用于维护配置信息，命名，提供分布式同步以及提供组服务的集中式服务。所有这些类型的服务都以某种形式被分布式应用程序使用。每次实施它们时，都会进行很多工作来修复不可避免的错误和竞争条件。由于难以实现这类服务，因此应用程序最初通常会跳过它们，这会使它们在发生更改时变得脆弱并且难以管理。即使部署正确，这些服务的不同实现也会导致管理复杂。
Apache ZooKeeper致力于维护实现高度可靠的分布式协调的开源服务器
1.2 ZooKeeper百度百科
ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。
ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。
ZooKeeper包含一个简单的原语集，提供Java和C的接口。
二 ZooKeeper的原理、

ZooKeeper是以Fast Paxos算法为基础的，Paxos 算法存在活锁的问题，即当有多个proposer交错提交时，有可能互相排斥导致没有一个proposer能提交成功，而Fast Paxos作了一些优化，通过选举产生一个leader (领导者)，只有leader才能提交proposer，具体算法可见Fast Paxos。因此，要想弄懂ZooKeeper首先得对Fast Paxos有所了解。 [2]
ZooKeeper的基本运转流程：
1、选举Leader。
2、同步数据。
3、选举Leader过程中算法有很多，但要达到的选举标准是一致的。
4、Leader要具有最高的执行ID，类似root权限。
5、集群中大多数的机器得到响应并接受选出的Leader。
三 Zookeeper数据模型（树形结构）
在这里插入图片描述
Zookeeper采用的是树形结构，每个子目录都被称作为Znode节点，和文件系统一样我们可以很轻松的对znode节点进行增加删除等操作而且还可以在一个znode下增加、删除子znode，区别在于文件系统的是，znode可以存储数据（严格说是必须存放数据，默认是个空字符）。
由于zookeeper是目录节点结构，在获取和创建节点时，必须要以“/” 开头，否则在获取节点时会报错 Path must start with / character。
1[zk: localhost:2181(CONNECTED) 13] get test
2Command failed: java.lang.IllegalArgumentException: Path must start with / character
在这里插入图片描述

Zxid：

znode节点状态改变会导致该节点收到一个zxid格式的时间戳，这个时间戳是全局有序的，znode节点的建立或者更新都会产生一个新的。如果zxid1的值 < zxid2的值，那么说明zxid2发生的改变在zxid1之后。每个znode节点都有3个zxid属性，cZxid（节点创建时间）、mZxid（该节点修改时间，与子节点无关）、pZxid（该节点或者该节点的子节点的最后一次创建或者修改时间，孙子节点无关）。

zxid属性主要应用于zookeeper的集群，这个后边介绍集群时详细说。

Version：

znode属性中一共有三个版本号dataversion（数据版本号）、cversion（子节点版本号）、aclversion（节点所拥有的ACL权限版本号）。

znode中的数据可以有多个版本，如果某一个节点下存有多个数据版本，那么查询这个节点数据就需要带上版本号。每当我们对znode节点数据修改后，该节点的dataversion版本号会递增。当客户端请求该znode节点时，会同时返回节点数据和版本号。另外当dataversion为 -1的时候可以忽略版本进行操作。对一个节点设置权限时aclVersion版本号会递增，下边会详细说ACL权限控制。

验证一下，我们修改/test节点的数据看看dataVersion有什么变化，发现dataVersion属性变成了 3，版本号递增了。

1[zk: localhost:2181(CONNECTED) 10] set /test 8888
2cZxid = 0x59ac
3ctime = Mon Mar 30 15:20:08 CST 2020
4mZxid = 0x59b6
5mtime = Mon Mar 30 16:58:08 CST 2020
6pZxid = 0x59ac
7cversion = 0
8dataVersion = 3
9aclVersion = 0
10ephemeralOwner = 0x0
11dataLength = 4
12numChildren = 0
3、znode的类型

zookeeper 有四种类型的znode，在用客户端 client 创建节点的时候需要指定类型。
PERSISTENT-持久化目录节点：client创建节点后，与zookeeper断开连接该节点将被持久化，当client再次连接后节点依旧存在。

PERSISTENT_SEQUENTIAL-持久化顺序节点：client创建节点后，与zookeeper断开连接该节点将被持久化，再次连接节点还存在，zookeeper会给该节点名称进行顺序编号，例如：/lock/0000000001、/lock/0000000002、/lock/0000000003。

EPHEMERAL-临时目录节点：client与zookeeper断开连接后，该节点即会被删除

EPHEMERAL_SEQUENTIAL-临时顺序节点：client与zookeeper断开连接后，该节点被删除，会给该节点名称进行顺序编号，例如：/lock/0000000001、/lock/0000000002、/lock/0000000003。
四节点的ACL控制
ACL：即 Access Control List (节点的权限控制)，通过ACL机制来解决znode节点的访问权限问题，要注意的是zookeeper对权限的控制是基于znode级别的，也就说节点之间的权限不具有继承性，即子节点不继承父节点的权限。
zookeeper中设置ACL权限的格式由::三段组成。

schema ：表示授权的方式

world：表示任何人都可以访问
auth：只有认证的用户可以访问
digest：使用username ：password用户密码生成MD5哈希值作为认证ID
host/ip：使用客户端主机IP地址来进行认证
id：权限的作用域，用来标识身份，依赖于schema选择哪种方式。

acl：给一个节点赋予哪些权限，节点的权限有create,、delete、write、read、admin 统称 cdwra。

1、world：表示任何人都可以访问

我们用 getAcl 命令来看一下，没有设置过权限的znode节点，默认情况下的权限情况。

1[zk: localhost:2181(CONNECTED) 12] getAcl /test
2’world,'anyone
3: cdrwa
看到没有设置ACL属性的节点，默认schema 使用的是world，作用域是anyone，节点权限是cdwra，也就是说任何人都可以访问。

那我们如果要给一个schema 为非world的节点设置world权限咋搞？

1setAcl /test world:anyone:crdwa
2、auth：只有认证的用户可以访问

schema 用auth授权表示只有认证后的用户才可以访问，那么首先就需要添加认证用户，添加完以后需要对认证的用户设置ACL权限。

1addauth digest test:password(明文)
需要注意的是设置认证用户时的密码是明文的。

1[zk: localhost:2181(CONNECTED) 2] addauth digest user:user //用户名：密码
2[zk: localhost:2181(CONNECTED) 5] setAcl /test auth:user:crdwa
3[zk: localhost:2181(CONNECTED) 6] getAcl /test
4’digest,'user:ben+k/3JomjGj4mfd4fYsfM6p0A=
5: cdrwa
实际上我们这样设置以后，就是将这个节点开放给所有认证的用户，setAcl /test auth:user:crdwa 相当于setAcl /test auth::crdwa。

3、digest：用户名:密码的验证方式

用户名:密码方式授权是针对单个特定用户，这种方式是不需要先添加认证用户的。

如果在代码中使用zookeeper客户端设置ACL，那么密码是明文的，但若是zk.cli等客户端操作就需要将密码进行sha1及base64处理。

1setAcl digest::<password(密文)>:
2
3setAcl /test digest:user:jalRr+knv/6L2uXdenC93dEDNuE=:crdwa
那么密码如何加密嘞？有以下几种方式：

通过shell命令加密

1echo -n : | openssl dgst -binary -sha1 | openssl base64
2
使用zookeeper自带的类库org.apache.zookeeper.server.auth.DigestAuthenticationProvider生成

1java -cp /zookeeper-3.4.13/zookeeper-3.4.13.jar:/zookeeper-3.4.13/lib/slf4j-api-1.7.25.jar
2 org.apache.zookeeper.server.auth.DigestAuthenticationProvider
3 root:root
4root:root->root:qiTlqPLK7XM2ht3HMn02qRpkKIE=
4、host/ip：使用客户端主机IP地址来进行认证

这种方式就比较好理解了，通过对特定的IP地址，也可以是一个IP段进行授权。

1[zk: localhost:2181(CONNECTED) 3] setAcl /test0000000014 ip:127.0.0.1:crdwa
2cZxid = 0x59ac
3ctime = Mon Mar 30 15:20:08 CST 2020
4mZxid = 0x59b6
5mtime = Mon Mar 30 16:58:08 CST 2020
6pZxid = 0x59ac
7cversion = 0
8dataVersion = 3
9aclVersion = 3 // 这个版本一直在增加
10ephemeralOwner = 0x0
11dataLength = 4
12numChildren = 0
五 Zookeeper的灵魂
zookeeper可以为dubbo提供服务的注册与发现，作为注册中心，但你有想过zookeeper为啥能够实现服务的注册与发现吗？这就不得不说一下zookeeper的灵魂 Watcher（监听者）。
1、watcher是个啥？

watcher 是zooKeeper中一个非常核心功能，客户端watcher 可以监控节点的数据变化以及它子节点的变化，一旦这些状态发生变化，zooKeeper服务端就会通知所有在这个节点上设置过watcher的客户端，从而每个客户端都很快感知，它所监听的节点状态发生变化，而做出对应的逻辑处理。

简单的介绍了一下watcher ，那么我们来分析一下，zookeeper是如何实现服务的注册与发现。
zookeeper的服务注册与发现，主要应用的是zookeeper的znode节点数据模型和watcher机制，大致的流程如下：
在这里插入图片描述
服务注册：服务提供者（Provider）启动时，会向zookeeper服务端注册服务信息，也就是创建一个节点，例如：用户注册服务com.xxx.user.register，并在节点上存储服务的相关数据（如服务提供者的ip地址、端口等）。

服务发现：服务消费者（Consumer）启动时，根据自身配置的依赖服务信息，向zookeeper服务端获取注册的服务信息并设置watch监听，获取到注册的服务信息之后，将服务提供者的信息缓存在本地，并进行服务的调用。

服务通知：一旦服务提供者因某种原因宕机不再提供服务之后，客户端与zookeeper服务端断开连接，zookeeper服务端上服务提供者对应服务节点会被删除（例如：用户注册服务com.xxx.user.register），随后zookeeper服务端会异步向所有消费用户注册服务com.xxx.user.register，且设置了watch监听的服务消费者发出节点被删除的通知，消费者根据收到的通知拉取最新服务列表，更新本地缓存的服务列表。
2、watcher类型

znode节点可以设置两类watch，一种是DataWatches，基于znode节点的数据变更从而触发 watch 事件，触发条件getData()、exists()、setData()、 create()。

另一种是Child Watches，基于znode的孩子节点发生变更触发的watch事件，触发条件 getChildren()、 create()。

而在调用 delete() 方法删除znode时，则会同时触发Data Watches和Child Watches，如果被删除的节点还有父节点，则父节点会触发一个Child Watches。
3、watcher特性

watch对节点的监听事件是一次性的！客户端在指定的节点设置了监听watch，一旦该节点数据发生变更通知一次客户端后，客户端对该节点的监听事件就失效了。

如果还要继续监听这个节点，就需要我们在客户端的监听回调中，再次对节点的监听watch事件设置为True。否则客户端只能接收到一次该节点的变更通知。
六 Zookeeper能实现哪些功能
服务的注册与发现功能只是zookeeper的冰山一角，它还能实现诸如分布式锁、队列、配置中心等一系列功能，接下来我们只分析一下原理，具体的实现大家上网查一下资料还是比较全的。

1、分布式锁
在这里插入图片描述
zookeeper基于watcher机制和znode的有序节点，天生就是一个分布式锁的坯子。首先创建一个/test/lock父节点作为一把锁，尽量是持久节点（PERSISTENT类型），每个尝试获取这把锁的客户端，在/test/lock父节点下创建临时顺序子节点。

由于序号的递增性，我们规定序号最小的节点即获得锁。例如：客户端来获取锁，在/test/lock节点下创建节点为/test/lock/seq-00000001，它是最小的所以它优先拿到了锁，其它节点等待通知再次获取锁。/test/lock/seq-00000001执行完自己的逻辑后删除节点释放锁。

那么节点/test/lock/seq-00000002想要获取锁等谁的通知呢？

这里我们让/test/lock/seq-00000002节点监听/test/lock/seq-00000001节点，一旦/test/lock/seq-00000001节点删除，则通知/test/lock/seq-00000002节点，让它再次判断自己是不是最小的节点，是则拿到锁，不是继续等通知。

以此类推/test/lock/seq-00000003节点监听/test/lock/seq-00000002节点，总是让后一个节点监听前一个节点，不用让所有节点都监听最小的节点，避免设置不必要的监听，以免造成大量无效的通知，形成“羊群效应”。

zookeeper分布式锁和redis分布式锁相比，因为大量的创建、删除节点性能上比较差，并不是很推荐。

2、分布式队列

zookeeper实现分布式队列也很简单，应用znode的有序节点天然的“先进先出”，后创建的节点总是最大的，出队总是拿序号最小的节点即可。

3、配置管理

现在有很多开源项目都在使用Zookeeper来维护配置，像消息队列Kafka中，就使用Zookeeper来维护broker的信息；dubbo中管理服务的配置信息。原理也是基于watcher机制，例如：创建一个/config节点存放一些配置，客户端监听这个节点，一点修改/config节点的配置信息，通知各个客户端数据变更重新拉取配置信息。

4、命名服务

zookeeper的命名服务：也就是我们常说的服务注册与发现，主要是根据指定名字来获取资源或服务的地址，服务提供者等信息，利用其znode节点的特点和watcher机制，将其作为动态注册和获取服务信息的配置中心，统一管理服务名称和其对应的服务器列表信息，我们能够近乎实时地感知到后端服务器的状态(上线、下线、宕机)。
总结
1、ZooKeeper是什么？

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，它是集群的管理者，监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终，将简单易用的接口和性能高效、功能稳定的系统提供给用户。

客户端的读请求可以被集群中的任意一台机器处理，如果读请求在节点上注册了监听器，这个监听器也是由所连接的zookeeper机器来处理。对于写请求，这些请求会同时发给其他zookeeper机器并且达成一致后，请求才会返回成功。因此，随着zookeeper的集群机器增多，读请求的吞吐会提高但是写请求的吞吐会下降。

有序性是zookeeper中非常重要的一个特性，所有的更新都是全局有序的，每个更新都有一个唯一的时间戳，这个时间戳称为zxid（Zookeeper Transaction Id）。而读请求只会相对于更新有序，也就是读请求的返回结果中会带有这个zookeeper最新的zxid。

2、ZooKeeper提供了什么？

1）文件系统
2）通知机制
3、Zookeeper文件系统

Zookeeper提供一个多层级的节点命名空间（节点称为znode）。与文件系统不同的是，这些节点都可以设置关联的数据，而文件系统中只有文件节点可以存放数据而目录节点不行。Zookeeper为了保证高吞吐和低延迟，在内存中维护了这个树状的目录结构，这种特性使得Zookeeper不能用于存放大量的数据，每个节点的存放数据上限为1M。
4、四种类型的znode

1）PERSISTENT-持久化目录节点

客户端与zookeeper断开连接后，该节点依旧存在
2）PERSISTENT_SEQUENTIAL-持久化顺序编号目录节点

客户端与zookeeper断开连接后，该节点依旧存在，只是Zookeeper给该节点名称进行顺序编号
3）EPHEMERAL-临时目录节点

客户端与zookeeper断开连接后，该节点被删除
4）EPHEMERAL_SEQUENTIAL-临时顺序编号目录节点

客户端与zookeeper断开连接后，该节点被删除，只是Zookeeper给该节点名称进行顺序编号
5、Zookeeper通知机制

client端会对某个znode建立一个watcher事件，当该znode发生变化时，这些client会收到zk的通知，然后client可以根据znode变化来做出业务上的改变等。
6、Zookeeper做了什么？

1）命名服务
2）配置管理
3）集群管理
4）分布式锁
5）队列管理
7、zk的命名服务（文件系统）

命名服务是指通过指定的名字来获取资源或者服务的地址，利用zk创建一个全局的路径，即是唯一的路径，这个路径就可以作为一个名字，指向集群中的集群，提供的服务的地址，或者一个远程的对象等等。
8、zk的配置管理（文件系统、通知机制）

程序分布式的部署在不同的机器上，将程序的配置信息放在zk的znode下，当有配置发生改变时，也就是znode发生变化时，可以通过改变zk中某个目录节点的内容，利用watcher通知给各个客户端，从而更改配置。
9、Zookeeper集群管理（文件系统、通知机制）

所谓集群管理无在乎两点：是否有机器退出和加入、选举master。
对于第一点，所有机器约定在父目录下创建临时目录节点，然后监听父目录节点的子节点变化消息。一旦有机器挂掉，该机器与 zookeeper的连接断开，其所创建的临时目录节点被删除，所有其他机器都收到通知：某个兄弟目录被删除，于是，所有人都知道：它上船了。
新机器加入也是类似，所有机器收到通知：新兄弟目录加入，highcount又有了，对于第二点，我们稍微改变一下，所有机器创建临时顺序编号目录节点，每次选取编号最小的机器作为master就好。
10、Zookeeper分布式锁（文件系统、通知机制）

有了zookeeper的一致性文件系统，锁的问题变得容易。锁服务可以分为两类，一个是保持独占，另一个是控制时序。
对于第一类，我们将zookeeper上的一个znode看作是一把锁，通过createznode的方式来实现。所有客户端都去创建 /distribute_lock 节点，最终成功创建的那个客户端也即拥有了这把锁。用完删除掉自己创建的distribute_lock 节点就释放出锁。
对于第二类， /distribute_lock 已经预先存在，所有客户端在它下面创建临时顺序编号目录节点，和选master一样，编号最小的获得锁，用完删除，依次方便。
在获取分布式锁的时候在locker节点下创建临时顺序节点，释放锁的时候删除该临时节点。客户端调用createNode方法在locker下创建临时顺序节点，然后调用getChildren(“locker”)来获取locker下面的所有子节点，注意此时不用设置任何Watcher。客户端获取到所有的子节点path之后，如果发现自己创建的节点在所有创建的子节点序号最小，那么就认为该客户端获取到了锁。如果发现自己创建的节点并非locker所有子节点中最小的，说明自己还没有获取到锁，此时客户端需要找到比自己小的那个节点，然后对其调用exist()方法，同时对其注册事件监听器。之后，让这个被关注的节点删除，则客户端的Watcher会收到相应通知，此时再次判断自己创建的节点是否是locker子节点中序号最小的，如果是则获取到了锁，如果不是则重复以上步骤继续获取到比自己小的一个节点并注册监听。当前这个过程中还需要许多的逻辑判断。
12、Zookeeper队列管理（文件系统、通知机制）

两种类型的队列：
1）同步队列，当一个队列的成员都聚齐时，这个队列才可用，否则一直等待所有成员到达。
2）队列按照 FIFO 方式进行入队和出队操作。
第一类，在约定目录下创建临时目录节点，监听节点数目是否是我们要求的数目。
第二类，和分布式锁服务中的控制时序场景基本原理一致，入列有编号，出列按编号。在特定的目录下创建PERSISTENT_SEQUENTIAL节点，创建成功时Watcher通知等待的队列，队列删除序列号最小的节点用以消费。此场景下Zookeeper的znode用于消息存储，znode存储的数据就是消息队列中的消息内容，SEQUENTIAL序列号就是消息的编号，按序取出即可。由于创建的节点是持久化的，所以不必担心队列消息的丢失问题。
13、Zookeeper数据复制

Zookeeper作为一个集群提供一致的数据服务，自然，它要在所有机器间做数据复制。数据复制的好处：
1）容错：一个节点出错，不致于让整个系统停止工作，别的节点可以接管它的工作；
2）提高系统的扩展能力：把负载分布到多个节点上，或者增加节点来提高系统的负载能力；
3）提高性能：让客户端本地访问就近的节点，提高用户访问速度。
从客户端读写访问的透明度来看，数据复制集群系统分下面两种：
1）写主(WriteMaster) ：对数据的修改提交给指定的节点。读无此限制，可以读取任何一个节点。这种情况下客户端需要对读与写进行区别，俗称读写分离；
2）写任意(Write Any)：对数据的修改可提交给任意的节点，跟读一样。这种情况下，客户端对集群节点的角色与变化透明。
对zookeeper来说，它采用的方式是写任意。通过增加机器，它的读吞吐能力和响应能力扩展性非常好，而写，随着机器的增多吞吐能力肯定下降（这也是它建立observer的原因），而响应能力则取决于具体实现方式，是延迟复制保持最终一致性，还是立即复制快速响应。
14、Zookeeper工作原理

Zookeeper 的核心是原子广播，这个机制保证了各个Server之间的同步。实现这个机制的协议叫做Zab协议。Zab协议有两种模式，它们分别是恢复模式（选主）和广播模式（同步）。当服务启动或者在领导者崩溃后，Zab就进入了恢复模式，当领导者被选举出来，且大多数Server完成了和 leader的状态同步以后，恢复模式就结束了。状态同步保证了leader和Server具有相同的系统状态。
15、zookeeper是如何保证事务的顺序一致性的？

zookeeper采用了递增的事务Id来标识，所有的proposal（提议）都在被提出的时候加上了zxid，zxid实际上是一个64位的数字，高32位是epoch（时期; 纪元; 世; 新时代）用来标识leader是否发生改变，如果有新的leader产生出来，epoch会自增，低32位用来递增计数。当新产生proposal的时候，会依据数据库的两阶段过程，首先会向其他的server发出事务执行请求，如果超过半数的机器都能执行并且能够成功，那么就会开始执行。
16、Zookeeper 下 Server工作状态

每个Server在工作过程中有三种状态：
LOOKING：当前Server不知道leader是谁，正在搜寻
LEADING：当前Server即为选举出来的leader
FOLLOWING：leader已经选举出来，当前Server与之同步
17、zookeeper是如何选取主leader的？

当leader崩溃或者leader失去大多数的follower，这时zk进入恢复模式，恢复模式需要重新选举出一个新的leader，让所有的Server都恢复到一个正确的状态。Zk的选举算法有两种：一种是基于basic paxos实现的，另外一种是基于fast paxos算法实现的。系统默认的选举算法为fast paxos。
Zookeeper选主流程(basic paxos)
（1）选举线程由当前Server发起选举的线程担任，其主要功能是对投票结果进行统计，并选出推荐的Server；
（2）选举线程首先向所有Server发起一次询问(包括自己)；
（3）选举线程收到回复后，验证是否是自己发起的询问(验证zxid是否一致)，然后获取对方的id(myid)，并存储到当前询问对象列表中，最后获取对方提议的leader相关信息(id,zxid)，并将这些信息存储到当次选举的投票记录表中；
（4）收到所有Server回复以后，就计算出zxid最大的那个Server，并将这个Server相关信息设置成下一次要投票的Server；
（5）线程将当前zxid最大的Server设置为当前Server要推荐的Leader，如果此时获胜的Server获得n/2 + 1的Server票数，设置当前推荐的leader为获胜的Server，将根据获胜的Server相关信息设置自己的状态，否则，继续这个过程，直到leader被选举出来。通过流程分析我们可以得出：要使Leader获得多数Server的支持，则Server总数必须是奇数2n+1，且存活的Server的数目不得少于n+1. 每个Server启动后都会重复以上流程。在恢复模式下，如果是刚从崩溃状态恢复的或者刚启动的server还会从磁盘快照中恢复数据和会话信息，zk会记录事务日志并定期进行快照，方便在恢复时进行状态恢复。

Zookeeper选主流程(basic paxos) fast paxos流程是在选举过程中，某Server首先向所有Server提议自己要成为leader，当其它Server收到提议以后，解决epoch和 zxid的冲突，并接受对方的提议，然后向对方发送接受提议完成的消息，重复这个流程，最后一定能选举出Leader。

18、Zookeeper同步流程

选完Leader以后，zk就进入状态同步过程。
1）Leader等待server连接；
2）Follower连接leader，将最大的zxid发送给leader；
3）Leader根据follower的zxid确定同步点；
4）完成同步后通知follower 已经成为uptodate状态；
5）Follower收到uptodate消息后，又可以重新接受client的请求进行服务了。

19、分布式通知和协调

对于系统调度来说：操作人员发送通知实际是通过控制台改变某个节点的状态，然后zk将这些变化发送给注册了这个节点的watcher的所有客户端。
对于执行情况汇报：每个工作进程都在某个目录下创建一个临时节点。并携带工作的进度数据，这样汇总的进程可以监控目录子节点的变化获得工作进度的实时的全局情况。
20、机器中为什么会有leader？

在分布式环境中，有些业务逻辑只需要集群中的某一台机器进行执行，其他的机器可以共享这个结果，这样可以大大减少重复计算，提高性能，于是就需要进行leader选举。
21、zk节点宕机如何处理？

Zookeeper本身也是集群，推荐配置不少于3个服务器。Zookeeper自身也要保证当一个节点宕机时，其他节点会继续提供服务。
如果是一个Follower宕机，还有2台服务器提供访问，因为Zookeeper上的数据是有多个副本的，数据并不会丢失；
如果是一个Leader宕机，Zookeeper会选举出新的Leader。
ZK集群的机制是只要超过半数的节点正常，集群就能正常提供服务。只有在ZK节点挂得太多，只剩一半或不到一半节点能工作，集群才失效。
所以
3个节点的cluster可以挂掉1个节点(leader可以得到2票>1.5)
2个节点的cluster就不能挂掉任何1个节点了(leader可以得到1票<=1)
22、zookeeper负载均衡和nginx负载均衡区别

zk的负载均衡是可以调控，nginx只是能调权重，其他需要可控的都需要自己写插件；但是nginx的吞吐量比zk大很多，应该说按业务选择用哪种方式。
23、zookeeper watch机制

Watch机制官方声明：一个Watch事件是一个一次性的触发器，当被设置了Watch的数据发生了改变的时候，则服务器将这个改变发送给设置了Watch的客户端，以便通知它们。
Zookeeper机制的特点：
1）一次性触发数据发生改变时，一个watcher event会被发送到client，但是client只会收到一次这样的信息。
2）watcher event异步发送watcher的通知事件从server发送到client是异步的，这就存在一个问题，不同的客户端和服务器之间通过socket进行通信，由于网络延迟或其他因素导致客户端在不通的时刻监听到事件，由于Zookeeper本身提供了ordering guarantee，即客户端监听事件后，才会感知它所监视znode发生了变化。所以我们使用Zookeeper不能期望能够监控到节点每次的变化。Zookeeper只能保证最终的一致性，而无法保证强一致性。
3）数据监视Zookeeper有数据监视和子数据监视getdata() and exists()设置数据监视，getchildren()设置了子节点监视。
4）注册watcher getData、exists、getChildren
5）触发watcher create、delete、setData
6）setData()会触发znode上设置的data watch（如果set成功的话）。一个成功的create() 操作会触发被创建的znode上的数据watch，以及其父节点上的child watch。而一个成功的delete()操作将会同时触发一个znode的data watch和child watch（因为这样就没有子节点了），同时也会触发其父节点的child watch。
7）当一个客户端连接到一个新的服务器上时，watch将会被以任意会话事件触发。当与一个服务器失去连接的时候，是无法接收到watch的。而当client重新连接时，如果需要的话，所有先前注册过的watch，都会被重新注册。通常这是完全透明的。只有在一个特殊情况下，watch可能会丢失：对于一个未创建的znode的exist watch，如果在客户端断开连接期间被创建了，并且随后在客户端连接上之前又删除了，这种情况下，这个watch事件可能会被丢失。
8）Watch是轻量级的，其实就是本地JVM的Callback，服务器端只是存了是否有设置了Watcher的布尔类型。