Zookeeper学习

最新推荐文章于 2019-12-11 20:22:53 发布

jiayouLau

最新推荐文章于 2019-12-11 20:22:53 发布

阅读量216

点赞数 1

分类专栏：大数据学习

本文链接：https://blog.csdn.net/jiayouLau/article/details/84873278

版权

大数据学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Zookeeper

一. Zookeeper背景

1.1认识Zookeeper

ZooKeeper---译名为“动物园管理员”。动物园里当然有好多的动物，游客可以根据动物园提供的向导图到不同的场馆观赏各种类型的动物，而不是像走在原始丛林里，心惊胆颤的被动物所观赏。为了让各种不同的动物呆在它们应该呆的地方，而不是相互串门，或是相互厮杀，就需要动物园管理员按照动物的各种习性加以分类和管理，这样我们才能更加放心安全的观赏动物。

回到企业级应用系统中，随着信息化水平的不断提高，企业级系统变得越来越庞大臃肿，性能急剧下降，客户抱怨频频。拆分系统是目前我们可选择的解决系统可伸缩性和性能问题的唯一行之有效的方法。但是拆分系统同时也带来了系统的复杂性——各子系统不是孤立存在的，它们彼此之间需要协作和交互，这就是我们常说的分布式系统。各个子系统就好比动物园里的动物，为了使各个子系统能正常为用户提供统一的服务，必须需要一种机制来进行协调——这就是ZooKeeper（动物园管理员）。

1.2为什么使用Zookeeper

Zookeeper 是一个分布式协调服务的开源框架。主要用来解决分布式集群中应用系统的一致性问题，例如怎样避免同时操作同一数据造成脏读的问题。ZooKeeper 本质上是一个分布式的小文件存储系统。提供基于类似于文件系统的目录树方式的数据存储，并且可以对树中的节点进行有效管理。从而用来维护和监控所存储数据的状态变化。通过监控这些数据状态的变化，从而可以达到基于数据的集群管理。诸如：统一命名服务、分布式配置管理、分布式消息队列、分布式锁、分布式协调等功能。

二. Zookeeper

2.1 Zookeeper的特性

※ 1. 全局数据一致：每个 server 保存一份相同的数据副本，client 无论连接到哪个 server，展示的数据都是一致的，这是最重要的特征；

※ 2. 可靠性：如果消息被其中一台服务器接受，那么将被所有的服务器接受。

※ 3. 顺序性：包括全局有序和偏序两种：全局有序是指如果在一台服务器上消息 a 在消息 b 前发布，则在所有 Server 上消息 a 都将在消息 b 前被发布；偏序是指如果一个消息 b 在消息 a 后被同一个发送者发布，a 必将排在 b 前面。

※ 4. 数据更新原子性：一次数据更新要么成功（半数以上节点成功），要么失败，不存在中间状态；

※ 5. 实时性：Zookeeper 保证客户端将在一个时间间隔范围内获得服务器的更新信息，或者服务器失效的信息。

2.2 ZooKeeper的集群

ZK集群如下图2所示。这是实际应用的一个场景，该ZooKeeper集群当中一共有5台服务器，有两种角色Leader和Follwer，5台服务器连通在一起，客户端有分别连在不同的ZK服务器上。如果当数据通过客户端1，在左边第一台Follower服务器上做了一次数据变更，他会把这个数据的变化同步到其他所有的服务器，同步结束之后，那么其他的客户端都会获得这个数据的变化。

注意：

通常Zookeeper由2n+1台servers组成，每个server都知道彼此的存在。每个server都维护的内存状态镜像以及持久化存储的事务日志和快照。为了保证Leader选举能过得到多数的支持，所以ZooKeeper集群的数量一般为奇数。对于2n+1台server，只要有n+1台（大多数）server可用，整个系统保持可用。

2.3 Zookeeper的角色

Leader:

Zookeeper 集群工作的核心事务请求（写操作）的唯一调度和处理者，保证集群事务处理的顺序性；集群内部各个服务器的调度者。对于 create，setData，delete 等有写操作的请求，则需要统一转发给leader 处理，leader 需要决定编号、执行操作，这个过程称为一个事务。

Follower:

处理客户端非事务（读操作）请求，转发事务请求给 Leader；参与集群 Leader 选举投票。此外，针对访问量比较大的 zookeeper 集群，还可新增观察者角色。

Observer:

观察者角色，观察 Zookeeper 集群的最新状态变化并将这些状态同步过来，其对于非事务请求可以进行独立处理，对于事务请求，则会转发给 Leader服务器进行处理。不会参与任何形式的投票只提供非事务服务，通常用于在不影响集群事务处理能力的前提下提升集群的非事务处理能力。

2.4 Zookeeper集群的搭建和启动

具体文档见：zookeeper集群环境搭建

博文：https://mp.csdn.net/postedit/84755885

三. Zookeeper中的节点

3.1 Zookeeper数据模型

ZooKeeper 的数据模型，在结构上和标准文件系统的非常相似，拥有一个层

次的命名空间，都是采用树形层次结构，ZooKeeper 树中的每个节点被称为—Znode。和文件系统的目录树一样，ZooKeeper 树中的每个节点可以拥有子节点。

但也有不同之处：

※1. Znode 兼具文件和目录两种特点。既像文件一样维护着数据、元信息、ACL、时间戳等数据结构，又像目录一样可以作为路径标识的一部分，并可以具有子 Znode。用户对 Znode 具有增、删、改、查等操作（权限允许的情况下）。

※2. Znode 具有原子性操作，读操作将获取与节点相关的所有数据，写操作也将替换掉节点的所有数据。另外，每一个节点都拥有自己的 ACL(访问控制列表)，这个列表规定了用户的权限，即限定了特定用户对目标节点可以执行的操作。

※3. Znode 存储数据大小有限制。ZooKeeper 虽然可以关联一些数据，但并没有被设计为常规的数据库或者大数据存储，相反的是，它用来管理调度数据，比如分布式应用中的配置文件信息、状态信息、汇集位置等等。这些数据的共同特性就是它们都是很小的数据，通常以 KB 为大小单位。ZooKeeper 的服务器和客户端都被设计为严格检查并限制每个 Znode 的数据大小至多 1M，当时常规使用中应该远小于此值。

※4. Znode 通过路径引用，如同 Unix 中的文件路径。路径必须是绝对的，因此他们必须由斜杠字符来开头。除此以外，他们必须是唯一的，也就是说每一个路径只有一个表示，因此这些路径不能改变。在 ZooKeeper 中，路径由Unicode 字符串组成，并且有一些限制。字符串"/zookeeper"用以保存管理信息，比如关键配额信息。

3.2 节点

3.2.1 树形结构

图中的每个节点称为一个 Znode。每个 Znode 由 3 部分组成:

① stat：此为状态信息, 描述该 Znode 的版本, 权限等信息

② data：与该 Znode 关联的数据

③ children：该 Znode 下的子节点

3.2.2节点类型

Znode 有两种，分别为临时节点和永久节点。节点的类型在创建时即被确定，并且不能改变。

临时节点：该节点的生命周期依赖于创建它们的会话。一旦会话结束，临时节点将被自动删除，当然可以也可以手动删除。临时节点不允许拥有子节点。

永久节点：该节点的生命周期不依赖于会话，并且只有在客户端显示执行删除操作的时候，他们才能被删除。

Znode 还有一个序列化的特性，如果创建的时候指定的话，该 Znode 的名字

后面会自动追加一个不断增加的序列号。序列号对于此节点的父节点来说是唯一

的，这样便会记录每个子节点创建的先后顺序。它的格式为“%10d”(10 位数字，

没有数值的数位用 0 补充，例如“0000000001”)。

这样便会存在四种类型的 Znode 节点，分别对应：

PERSISTENT：永久节点

EPHEMERAL：临时节点

PERSISTENT_SEQUENTIAL：永久节点、序列化

EPHEMERAL_SEQUENTIAL：临时节点、序列化

3.3 节点操作

操作部分分为两块：命令行操作和Java代码操作。先介绍一下节点的几个属性。

dataVersion：数据版本号，每次对节点进行 set 操作，dataVersion 的值都会增加 1（即使设置的是相同的数据），可有效避免了数据更新时出现的先后顺序问题。

cversion ：子节点的版本号。当 znode 的子节点有变化时，cversion 的值就会增加 1。

aclVersion ：ACL 的版本号。

cZxid ：Znode 创建的事务 id。

mZxid ：Znode 被修改的事务 id，即每次对 znode 的修改都会更新 mZxid。对于 zk 来说，每次的变化都会产生一个唯一的事务 id，zxid（ZooKeeperTransaction Id）。通过 zxid，可以确定更新操作的先后顺序。例如，如果 zxid1小于 zxid2，说明 zxid1 操作先于 zxid2 发生，zxid 对于整个 zk 都是唯一的，即使操作的是不同的 znode。

ctime：节点创建时的时间戳.

mtime：节点最新一次更新发生时的时间戳.

ephemeralOwner:如果该节点为临时节点, ephemeralOwner 值表示与该节点绑定的 session id. 如果不是, ephemeralOwner 值为 0.在 client 和 server 通信之前,首先需要建立连接,该连接称为 session。连接建立后,如果发生连接超时、授权失败,或者显式关闭连接,连接便处于 CLOSED状态, 此时 session 结束。

3.3.1 shell操作

这里主要介绍几个命令。

*** ls path 查看path下的节点信息。

*** create [-s] [-e] path data acl path为节点路径 value为节点的数据 acl为客户端权限控制。默认为持久化节点。

*** ls path [watch]

get path [watch]

ls2 path [watch]

与读取相关的命令有 ls 命令和 get 命令，ls 命令可以列出 Zookeeper 指定节点下的所有子节点，只能查看指定节点下的第一级的所有子节点；get 命令可以获取 Zookeeper 指定节点的数据内容和属性信息。

*** set path data [version] 更改节点数据，其中version可选，但是如果带上就必须和现在节点版本一致。

*** delete path [version]

若删除节点存在子节点，那么无法删除该节点，必须先删除子节点，再删除父节点。

*** Rmr path可以递归删除节点。

*** setquota -n|-b val path 对节点增加限制。

n:表示子节点的最大个数

b:表示数据值的最大长度

val:子节点最大个数或数据值的最大长度

path:节点路径

*** listquota path 列出指定节点的 quota

上例是对节点/mynode设置了子节点个数的最大值为3，而且这个最大值也包括了/mynode本身在内，但是这个设置是温和的，超过3个，仍然可以继续生成子节点，日志中会出现警告。

*** history : 列出命令历史

*** redo 命令编号再次执行这个命令

四. Zookeeper Watch机制

ZooKeeper 提供了分布式数据发布/订阅功能，一个典型的发布/订阅模型系统定义了一种一对多的订阅关系，能让多个订阅者同时监听某一个主题对象，当这个主题对象自身状态变化时，会通知所有订阅者，使他们能够做出相应的处理。ZooKeeper 中，引入了 Watcher 机制来实现这种分布式的通知功能。ZooKeeper 允许客户端向服务端注册一个 Watcher 监听，当服务端的一些事件触发了这个 Watcher，那么就会向指定客户端发送一个事件通知来实现分布式的通知功能。触发事件种类很多，如：节点创建，节点删除，节点改变，子节点改变等。总的来说可以概括 Watcher 为以下三个过程：客户端向服务端注册Watcher、服务端事件发生触发 Watcher、客户端回调 Watcher 得到触发事件情况。

4.1 Watch机制特点

※一次性触发：

事件发生触发监听，一个 watcher event 就会被发送到设置监听的客户端，这种效果是一次性的，后续再次发生同样的事件，不会再次触发。

※事件封装：

ZooKeeper 使用 WatchedEvent 对象来封装服务端事件并传递。WatchedEvent 包含了每一个事件的三个基本属性：通知状态（keeperState），事件类型（EventType）和节点路径（path）。

※event异步发送:

watcher 的通知事件从服务端发送到客户端是异步的。

※先注册再触发:

Zookeeper 中的 watch 机制，必须客户端先去服务端注册监听，这样事件发送才会触发监听，通知给客户端。

4.2 通知状态和事件类型

同一个事件类型在不同的通知状态中代表的含义有所不同，下表列举了常见

的通知状态和事件类型。

其中连接状态事件(type=None, path=null)不需要客户端注册，客户端只要

有需要直接处理就行了。

4.3 shell客户端设置watch

设置节点数据变动监听：

更改节点数据：

此时设置监听的节点收到通知：

可以通过 help命令来查看哪些命令后可以添加watch

4.4 Zookeeper API设置watch

org.apache.zookeeper.Zookeeper

Zookeeper 是在 Java 中客户端主类，负责建立与 zookeeper 集群的会话，

并提供方法进行操作。

org.apache.zookeeper.Watcher

Watcher 接口表示一个标准的事件处理器，其定义了事件通知相关的逻辑，

包含 KeeperState 和 EventType 两个枚举类，分别代表了通知状态和事件类型，

同时定义了事件的回调方法：process（WatchedEvent event）。

process 方法是 Watcher 接口中的一个回调方法，当 ZooKeeper 向客户端发

送一个 Watcher 事件通知时，客户端就会对相应的 process 方法进行回调，从而

实现对事件的处理。

4.4.1 基本使用

建立 java maven 项目,引入 maven pom 坐标。

<groupId>org.apache.zookeeper</groupId>

<artifactId>zookeeper</artifactId>

</dependency>

*** 创建节点/parent

*** 获得这个节点的值

*** 改变该节点的值

五. Zookeeper选举机制

5.1 概念介绍

服务器 ID：

比如有三台服务器，编号分别是 1,2,3。编号越大在选择算法中的权重越大。

选举状态：

LOOKING，竞选状态。

FOLLOWING，随从状态，同步 leader 状态，参与投票。

OBSERVING，观察状态,同步 leader 状态，不参与投票。

LEADING，领导者状态。

数据 ID：

服务器中存放的最新数据 version。值越大说明数据越新，在选举算法中数据越新权重越大。

逻辑时钟：

也叫投票的次数，同一轮投票过程中的逻辑时钟值是相同的。每投完一次票这个数据就会增加，然后与接收到的其它服务器返回的投票信息中的数值相比，根据不同的值做出不同的判断。

选举机制发生的时间

集群启动时
leader节点崩溃时

5.2 FastLeaderElection（全新选举）

这种选举方式发生在集群第一次初始化或者各个服务器都没有数据的时候来开启集群。假设目前有 5 台服务器，每台服务器均没有数据，它们的编号分别是1,2,3,4,5,按编号依次启动，它们的选择举过程如下：

 ※ 服务器 1 启动，给自己投票，然后发投票信息，由于其它机器还没有启动所以它收不到反馈信息，服务器 1 的状态一直属于 Looking。

 ※ 服务器 2 启动，给自己投票，同时与之前启动的服务器 1 交换结果，由于服务器 2 的编号大所以服务器 2 胜出，但此时投票数没有大于半数，所以两个服务器的状态依然是 LOOKING。

 ※ 服务器 3 启动，给自己投票，同时与之前启动的服务器 1,2 交换信息，由于服务器 3 的编号最大所以服务器 3 胜出，此时投票数正好大于半数，所以服务器 3 成为领导者，服务器 1,2 成为小弟。

 ※ 服务器 4 启动，给自己投票，同时与之前启动的服务器 1,2,3 交换信息，尽管服务器 4 的编号大，但之前服务器 3 已经胜出，所以服务器 4 只能成为小弟。

 ※ 服务器 5 启动，后面的逻辑同服务器 4 成为小弟。

5.3 非全新选举

对于运行正常的 zookeeper 集群，中途有机器 down 掉，需要重新选举时，选举过程就需要加入数据 ID、服务器 ID 和逻辑时钟。

数据 ID：数据新的 version 就大，数据每次更新都会更新 version。

服务器 ID：就是我们配置的 myid 中的值，每个机器一个。

逻辑时钟：这个值从 0 开始递增,每次选举对应一个值。如果在同一次选举中,这个值是一致的。

这样选举的标准就变成：

1、逻辑时钟小的选举结果被忽略，重新投票；

2、统一逻辑时钟后，数据 id 大的胜出；

3、数据 id 相同的情况下，服务器 id 大的胜出；

根据这个规则选出 leader。

六.Zookeeper的应用

6.1 数据发布与订阅

发布与订阅模型，即所谓的配置中心，顾名思义就是发布者将数据发布到 ZK节点上，供订阅者动态获取数据，实现配置信息的集中式管理和动态更新。

应用在启动的时候会主动来获取一次配置，同时，在节点上注册一个 Watcher，这样一来，以后每次配置有更新的时候，都会实时通知到订阅的客户端，从而达到获取最新配置信息的目的。

比如：

分布式搜索服务中，索引的元信息和服务器集群机器的节点状态存放在 ZK

的一些指定节点，供各个客户端订阅使用。

注意：适合数据量很小的场景，这样数据更新可能会比较快。

6.2命名服务

在分布式系统中，通过使用命名服务，客户端应用能够根据指定名字来获取资源或服务的地址，提供者等信息。被命名的实体通常可以是集群中的机器，提供的服务地址，远程对象等等——这些我们都可以统称他们为名字（Name）。其中较为常见的就是一些分布式服务框架中的服务地址列表。通过调用 ZK 提供的创建节点的 API，能够很容易创建一个全局唯一的 path，这个 path 就可以作为一个名称。阿里巴巴集团开源的分布式服务框架 Dubbo 中使用 ZooKeeper 来作为其命名服务，维护全局的服务地址列表。

6.3 分布式锁

在单进程的系统中，当存在多个线程可以同时改变某个变量（共享内存变量）时，就需要对变量或代码块做同步，使得多个线程在修改共享变量时能够线性执行，以防并发修改变量的值。

而同步的本质是通过锁来实现的。为了实现多个线程在一个时刻同一个代码块只能有一个线程可执行，那么需要在某个地方做个标记，这个标记必须每个线程都能看到，当标记不存在时可以设置该标记，其余后续线程发现已经有标记了则等待拥有标记的线程结束同步代码块取消标记后再去尝试设置标记。这个标记可以理解为锁。

不同地方实现锁的方式也不一样，只要能满足所有线程都能看得到标记即可。如 Java 中 synchronize 是在对象头设置标记，Lock 接口的实现类基本上都只是某一个 volitile 修饰的 int 型变量其保证每个线程都能拥有对该 int 的可见性和原子修改，操作系统例如linux 内核中也是利用互斥量或信号量等内存数据做标记。

在集群模式下，多个相同服务同时开启.在许多的场景中，我们为了保证数据的最终一致性，需要很多的技术方案来支持，比如分布式事务、分布式锁等。很多时候我们需要保证一个方法在同一时间内只能被同一个线程执行。在单机环境中，通过 Java 提供的并发 API 我们可以解决，但是在分布式环境下，应用进程跑在不同的jvm中，就不像单体应用那么简单了。

分布式与单机情况下最大的不同在于其不是多线程而是多进程。多线程由于可以共享堆内存，因此可以简单的采取内存作为标记存储位置。而进程之间甚至可能都不在同一台物理机上，因此需要将标记存储在一个所有进程都能看到的地方。

保持独占：

我们可以让client在连接服务器之后去创建一个临时节点，各个client会抢夺资源创建节点。如果集群中的这个节点由client1创建，那么我们认为client1获得了这把锁，其他client处于等待状态，client进而可以完成他的业务，当完成业务后通知服务器删除这个节点。删除之后原来那些等待的节点开始创建这个节点，依照这样的规律。我们认为谁创建这个节点，谁就获得这把锁，当这个节点在服务器中不存在了也就意味这锁被释放了。由于这个节点是临时节点，也就是说当某个client创建了这个节点拿到锁之后，如果由于某些原因与服务器断开连接，使得这个节点也会被删除，不会影响其他client的业务。

控制时序:

控制时序，就是所有试图来获取这个锁的客户端，最终都是会被安排执行，只是有个全局时序了。做法和上面基本类似，只是这里 /distribute_lock 已经预先存在，客户端在它下面创建临时有序节点（这个可以通过节点的属性控制：CreateMode.EPHEMERAL_SEQUENTIAL 来指定）。Zk 的父节点（/distribute_lock）维持一份 sequence,保证子节点创建的时序性，从而也形成了每个客户端的全局时序。

关于分布式锁的代码，将在后续推出！！！

jiayouLau

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Zookeeper学习

Zookeeper一. Zookeeper背景1.1认识ZookeeperZooKeeper---译名为“动物园管理员”。动物园里当然有好多的动物，游客可以根据动物园提供的向导图到不同的场馆观赏各种类型的动物，而不是像走在原始丛林里，心惊胆颤的被动物所观赏。为了让各种不同的动物呆在它们应该呆的地方，而不是相互串门，或是相互厮杀，就需要动物园管理员按照动物的各种习性加以分类和管理，这样...
复制链接

扫一扫

专栏目录