Zookeeper集群搭建与原理介绍-CSDN博客

本文链接：https://blog.csdn.net/qq805934132/article/details/85006722

写在搭建之前，

zookeeper集群中节点配置个数建议是奇数个

为什么？

Zookeeper的大部分操作都是通过选举产生的。比如，标记一个写是否成功是要在超过一半节点发送写请求成功时才认为有效。同样，Zookeeper选择领导者节点也是在超过一半节点同意时才有效。

最后，Zookeeper是否正常是要根据是否超过一半的节点正常才算正常。这是基于CAP的一致性原理。

zookeeper有这样一个特性：集群中只要有过半的机器是正常工作的，那么整个集群对外就是可用的。也就是说如果有2个zookeeper，那么只要有1个死了zookeeper就不能用了，因为1没有过半，所以2个zookeeper的死亡容忍度为0；

同理，要是有3个zookeeper，一个死了，还剩下2个正常的，过半了，所以3个zookeeper的容忍度为1；同理你多列举几个：2->0;3->1;4->1;5->2;6->2会发现一个规律，2n和2n-1的容忍度是一样的，都是n-1，

所以为了更加高效节约，何必增加那一个不必要的zookeeper呢。

----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

集群搭建

一、下载zookeeper安装包

1.对于在墙内的用户，官网下载速度有点比较慢

2.在cloudera仓库进行下载，相较于官网下载更加稳定快速，地址 http://archive.cloudera.com/cdh5/cdh/5/

（根据自己的需要选择对应的版本下载，本人在官网下载的 zookeeper-3.4.12 ）

二、将安装包上传服务器解压到指定目录

1.登录Linux服务器

2.cd /usr/local/，然后 mkdir zookeeper

3.切换到 /usr/local/zookeeper，使用rz -e 命令上传 zookeeperXXX.tar.gz 包

4.执行 tar -zxvf zookeeperXXX.tar.gz 解压，

（可以根据需要替换目录，我的目录是 /usr/local/zookeeper/zookeeper-3.4.12 ）

三、对默认配置文件进行重命名

1.使用mv命令将zookeeper根目录中conf文件夹下的zoo_sample.cfg重命名为zoo.cfg，修改后zookeeper便可以识别到该文件

四、修改zoo.cfg配置文件

截了网上的一段，有详细的注释

#发送心跳的间隔时间，单位：毫秒
tickTime=2000
#zookeeper保存数据的目录
dataDir=/modules/zookeeper-3.4.5-cdh5.11.1/data
#日志目录
dataLogDir=/modules/zookeeper-3.4.5-cdh5.11.1/dataLog
#端口
clientPort=2181
#leader和follower初始化连接时最长能忍受多少个心跳时间的间隔数
initLimit=5
#leader和follower之间发送消息，请求和英达时间长度，最长不能超过多少个tickTime的时间长度
syncLimit=2
#zookeeper机器列表，server.order这里的Order依据集群的机器个数依次进行递增，这里的server1、server2、server3表示机器IP地址
server.1=server1:2888:3888
server.2=server2:2888:3888
server.3=server3:2888:3888

本人修改的配置如下：

dataDir=/usr/local/zookeeper/zookeeper-3.4.12/data
dataLogDir=/usr/local/zookeeper/zookeeper-3.4.12/datalog

（dataDir和dataLogDir自己创建，可以根据需要放在不同的目录）

server.1=server1-ip:2888:3888（假设是当前登录的机器）
server.2=server2-ip:2888:3888
server.3=server3-ip:2888:3888

3个端口的作用(可以修改)：

2181：对client端提供服务

3888：选举leader使用

2888：集群内机器通讯使用（Leader监听此端口）

五、新建myid文件

1.在server1机器中，在上面配置的data目录下，新建一个名为 myid 的文件，文件内容填写 1，对应server.1后面的server.x 。zookeeper是根据该文件来决定zookeeper集群各个机器的身份分配。

六、将配置好的zookeeper分发到集群的所有机器

1.使用scp命令将zookeeper分发到其他所有机器

2.修改其他机器的 myid 文件，server2机器改为2 ，server3机器改为3

七、启动zookeeper服务

1.由于没有配置zookeeper环境变量，故修改完成后，在每台机器上对应目录依次使用bin/zkServer.sh start来启动zookeeper服务，

2.待启动完成后使用 bin/zkServer.sh status来查看机器的身份

八、启动zookeeper客户端检验服务是否可用

1.使用 bin/zkCli.sh来检验zookeeper是否可以连接成功, bin/zkCli.sh -server ip:2181

2.上图说明连接成功，使用quit命令可以退出，注意直接关闭可能导致进程没有关闭，而导致在其他机器无法进行客户端连接。

原理介绍

1、Zookeeper 的角色

　　» 领导者（leader），负责进行投票的发起和决议，更新系统状态
　　» 学习者（learner），包括跟随者（follower）和观察者（observer），follower用于接受客户端请求并想客户端返回结果，在选主过程中参与投票
　　» Observer可以接受客户端连接，将写请求转发给leader，但observer不参加投票过程，只同步leader的状态，observer的目的是为了扩展系统，提高读取速度
　　» 客户端（client），请求发起方

Zookeeper的核心是原子广播，这个机制保证了各个Server之间的同步。实现这个机制的协议叫做Zab协
　　议。Zab协议有两种模式，它们分别是恢复模式（选主）和广播模式（同步）。当服务启动或者在领导者
　　　崩溃后，Zab就进入了恢复模式，当领导者被选举出来，且大多数Server完成了和leader的状态同步以后
　　，恢复模式就结束了。状态同步保证了leader和Server具有相同的系统状态。

　　• 为了保证事务的顺序一致性，zookeeper采用了递增的事务id号（zxid）来标识事务。所有的提议（
　　　proposal）都在被提出的时候加上了zxid。实现中zxid是一个64位的数字，它高32位是epoch用来标识
　　 leader关系是否改变，每次一个leader被选出来，它都会有一个新的epoch，标识当前属于那个leader的
　　　统治时期。低32位用于递增计数。
　　• 每个Server在工作过程中有三种状态：
　　　　LOOKING：当前Server不知道leader是谁，正在搜寻
　　　　LEADING：当前Server即为选举出来的leader
　　　　FOLLOWING：leader已经选举出来，当前Server与之同步

2、Zookeeper 的读写机制

　　» Zookeeper是一个由多个server组成的集群
　　» 一个leader，多个follower
　　» 每个server保存一份数据副本
　　» 全局数据一致
　　» 分布式读写
　　» 更新请求转发，由leader实施

3、Zookeeper 的保证　

　　» 更新请求顺序进行，来自同一个client的更新请求按其发送顺序依次执行
　　» 数据更新原子性，一次数据更新要么成功，要么失败
　　» 全局唯一数据视图，client无论连接到哪个server，数据视图都是一致的
　　» 实时性，在一定事件范围内，client能读到最新数据

4、Zookeeper节点数据操作流程

注：1.在Client向Follwer发出一个写的请求

　　2.Follwer把请求发送给Leader

　　3.Leader接收到以后开始发起投票并通知Follwer进行投票

　　4.Follwer把投票结果发送给Leader

　　5.Leader将结果汇总后如果需要写入，则开始写入同时把写入操作通知给Leader，然后commit;

　　6.Follwer把请求结果返回给Client

• Follower主要有四个功能：
　　　　• 1. 向Leader发送请求（PING消息、REQUEST消息、ACK消息、REVALIDATE消息）；
　　　　• 2 .接收Leader消息并进行处理；
　　　　• 3 .接收Client的请求，如果为写请求，发送给Leader进行投票；
　　　　• 4 .返回Client结果。
　　　　• Follower的消息循环处理如下几种来自Leader的消息：
　　　　• 1 .PING消息：心跳消息；
　　　　• 2 .PROPOSAL消息：Leader发起的提案，要求Follower投票；
　　　　• 3 .COMMIT消息：服务器端最新一次提案的信息；
　　　　• 4 .UPTODATE消息：表明同步完成；
　　　　• 5 .REVALIDATE消息：根据Leader的REVALIDATE结果，关闭待revalidate的session还是允许其接受消息；
　　　　• 6 .SYNC消息：返回SYNC结果到客户端，这个消息最初由客户端发起，用来强制得到最新的更新。

5、Zookeeper leader 选举　　

　　• 半数通过
　　

　　• A提案说，我要选自己，B你同意吗？C你同意吗？B说，我同意选A；C说，我同意选A。(注意，这里超过半数了，其实在现实世界选举已经成功了。

　　　但是计算机世界是很严格，另外要理解算法，要继续模拟下去。)
　　• 接着B提案说，我要选自己，A你同意吗；A说，我已经超半数同意当选，你的提案无效；C说，A已经超半数同意当选，B提案无效。
　　• 接着C提案说，我要选自己，A你同意吗；A说，我已经超半数同意当选，你的提案无效；B说，A已经超半数同意当选，C的提案无效。
　　• 选举已经产生了Leader，后面的都是follower，只能服从Leader的命令。

6、zxid

　　• znode节点的状态信息中包含czxid, 那么什么是zxid呢?
　　• ZooKeeper状态的每一次改变, 都对应着一个递增的Transaction id, 该id称为zxid. 由于zxid的递增性质, 如果zxid1小于zxid2, 那么zxid1肯定先于zxid2发生.

　　　创建任意节点, 或者更新任意节点的数据, 或者删除任意节点, 都会导致Zookeeper状态发生改变, 从而导致zxid的值增加.

7、Zookeeper工作原理

　　» Zookeeper的核心是原子广播，这个机制保证了各个server之间的同步。实现这个机制的协议叫做Zab协议。Zab协议有两种模式，它们分别是恢复模式和广播模式。

　　　当服务启动或者在领导者崩溃后，Zab就进入了恢复模式，当领导者被选举出来，且大多数server的完成了和leader的状态同步以后，恢复模式就结束了。

　　　状态同步保证了leader和server具有相同的系统状态

　　» 一旦leader已经和多数的follower进行了状态同步后，他就可以开始广播消息了，即进入广播状态。这时候当一个server加入zookeeper服务中，它会在恢复模式下启动，

　　　发现leader，并和leader进行状态同步。待到同步结束，它也参与消息广播。Zookeeper服务一直维持在Broadcast状态，直到leader崩溃了或者leader失去了大部分

　　　的followers支持。

　　» 广播模式需要保证proposal被按顺序处理，因此zk采用了递增的事务id号(zxid)来保证。所有的提议(proposal)都在被提出的时候加上了zxid。

　　　实现中zxid是一个64为的数字，它高32位是epoch用来标识leader关系是否改变，每次一个leader被选出来，它都会有一个新的epoch。低32位是个递增计数。

　　» 当leader崩溃或者leader失去大多数的follower，这时候zk进入恢复模式，恢复模式需要重新选举出一个新的leader，让所有的server都恢复到一个正确的状态。　

　　» 每个Server启动以后都询问其它的Server它要投票给谁。
　　» 对于其他server的询问，server每次根据自己的状态都回复自己推荐的leader的id和上一次处理事务的zxid（系统启动时每个server都会推荐自己）
　　» 收到所有Server回复以后，就计算出zxid最大的哪个Server，并将这个Server相关信息设置成下一次要投票的Server。
　　» 计算这过程中获得票数最多的的sever为获胜者，如果获胜者的票数超过半数，则改server被选为leader。否则，继续这个过程，直到leader被选举出来　　

　　» leader就会开始等待server连接
　　» Follower连接leader，将最大的zxid发送给leader
　　» Leader根据follower的zxid确定同步点
　　» 完成同步后通知follower 已经成为uptodate状态
　　» Follower收到uptodate消息后，又可以重新接受client的请求进行服务了

8、Zookeeper 的节点

　　» Znode有两种类型，短暂的（ephemeral）和持久的（persistent）
　　» Znode的类型在创建时确定并且之后不能再修改
　　» 短暂znode的客户端会话结束时，zookeeper会将该短暂znode删除，短暂znode不可以有子节点
　　» 持久znode不依赖于客户端会话，只有当客户端明确要删除该持久znode时才会被删除
　　» Znode有四种形式的目录节点
　　» PERSISTENT（持久的）
　　» EPHEMERAL(暂时的)
　　» PERSISTENT_SEQUENTIAL（持久化顺序编号目录节点）
　　» EPHEMERAL_SEQUENTIAL（暂时化顺序编号目录节点）