【一篇入魂】Zookeeper入门看这篇就够了

1.ZooKeeper

1.1. ZooKeeper 概述

Zookeeper 是一个分布式协调服务的开源框架。主要用来解决分布式集群中应用系统的一致性问题,例如怎样避免同时操作同一数据造成脏读的问题。
ZooKeeper 本质上是一个分布式的小文件存储系统。提供基于类似于文件系统的目录树方式的数据存储,并且可以对树中的节点进行有效管理。从而用来维 护和监控你存储的数据的状态变化。通过监控这些数据状态的变化,从而可以达 到基于数据的集群管理。诸如:统一命名服务、分布式配置管理、分布式消息队列、分布式锁、分布式协调等功能

1.2. ZooKeeper 特性

全局数据一致、可靠性、顺序性、数据更新原子性、实时性

1.3. ZooKeeper 集群角色

在这里插入图片描述

  • Leader:事务请求(写操作)的唯一调度和处理者,集群内部各个服务器的调度者。
  • Follower: 处理客户端非事务(读操作)请求,转发事务请求给 Leader; 参与集群 Leader 选举投票。
    此外,针对访问量比较大的 zookeeper 集群,还可新增观察者角色。
  • Observer:观察 Zookeeper 集群的最新状态变化并将这些状态同步过来。

1.4. ZooKeeper 集群搭建

1.4.1.安装

zookeeper 集群搭建指的是 ZooKeeper 分布式模式安装。通常由2n+1台 servers 组成。这是因为为了保证 Leader 选举(基于 Paxos 算法的实现)能过得到多数的支持,所以 ZooKeeper 集群的数量一般为奇数。

Zookeeper 运行需要 java 环境,所以需要提前安装 jdk,然后下载Zookeeper🔗点击跳转
下载并解压ZooKeeper软件压缩包后,可以看到zk包含以下的文件和目录:在这里插入图片描述

  • bin目录:zk的可执行脚本目录,包括zk服务进程,zk客户端,等脚本。其中,.sh是Linux环境下的脚本,.cmd是Windows环境下的脚本。
  • conf目录:配置文件目录。zoo_sample.cfg为样例配置文件,需要修改为自己的名称,一般为zoo.cfg。log4j.properties为日志配置文件。
  • lib:zk依赖的包。
  • contrib目录:一些用于操作zk的工具包。
  • recipes目录:zk某些用法的代码示例。
    如果要想使用 Observer 模式,可在对应节点的配置文件添加如下配置:
    peerType=observer
    其次,必须在配置文件指定哪些节点被指定为 Observer,如:
    server.1:localhost:2181:3181:observer

1.4.2.单机模式

ZooKeeper的安装包括单机模式安装,以及集群模式安装。
上面提到,conf目录下提供了配置的样例zoo_sample.cfg,要将zk运行起来,需要将其名称修改为zoo.cfg

单机模式较简单,是指只部署一个zk进程,客户端直接与该zk进程进行通信。
在开发测试环境下,通过来说没有较多的物理资源,因此我们常使用单机模式。当然在单台物理机上也可以部署集群模式,但这会增加单台物理机的资源消耗。故在开发环境中,我们一般使用单机模式。
但是要注意,生产环境下不可用单机模式,这是由于无论从系统可靠性还是读写性能,单机模式都不能满足生产的需求。

1.4.2.1.启动

在Windows环境下,直接双击zkServer.cmd即可。
在Linux环境下,进入bin目录,执行命令

./zkServer.sh start

这个命令使得zk服务进程在后台进行。如果想在前台中运行以便查看服务器进程的输出日志,可以通过以下命令运行:

./zkServer.sh start-foreground

执行此命令,可以看到大量详细信息的输出,以便允许查看服务器发生了什么。

使用文本编辑器打开zkServer.cmd或者zkServer.sh文件,可以看到其会调用zkEnv.cmd或者zkEnv.sh脚本。zkEnv脚本的作用是设置zk运行的一些环境变量,例如配置文件的位置和名称等。
假如启动遇到了一些问题,请点击此处!

1.4.2.3 连接

如果是连接同一台主机上的zk进程,那么直接运行bin/目录下的zkCli.cmd(Windows环境下)或者zkCli.sh(Linux环境下),即可连接上zk。
直接执行zkCli.cmd或者zkCli.sh命令默认以主机号 127.0.0.1,端口号 2181 来连接zk,如果要连接不同机器上的zk,可以使用 -server 参数,例如:

bin/zkCli.sh -server 10.10.10.100:2181

1.4.3.集群模式

单机模式的zk进程虽然便于开发与测试,但并不适合在生产环境使用。在生产环境下,我们需要使用集群模式来对zk进行部署。

1.4.3.1.启动

假如我们打算在三台不同的机器 10.10.10.100,10.10.10.120,10.10.10.10058上各部署一个zk进程,以构成一个zk集群。
三个zk进程均使用相同的 zoo.cfg 配置

tickTime=2000
dataDir=/home/myname/zookeeper
clientPort=2181
initLimit=5
syncLimit=2
server.1=10.10.10.100:2888:3888
server.2=10.10.10.120:2888:3888
server.3=10.10.10.58:2888:3888

在三台机器dataDir目录( /home/myname/zookeeper 目录)下,分别生成一个myid文件,其内容分别为1,2,3。然后分别在这三台机器上启动zk进程,这样我们便将zk集群启动了起来。

1.4.3.2.连接

可以使用以下命令来连接一个zk集群:

bin/zkCli.sh -server 10.10.10.100:2181,10.10.10.120:2181,10.10.10.58:2181

成功连接后,可以看到控制台日志输出。

2.数据模型

2.1. ZooKeeper 数据模型

采用树形层次结构,ZooKeeper 树中的每个节点被称为— Znode,和文件系统的目录树一样,ZooKeeper 树中的每个节点可以拥有子节点。 但也有不同之处:

  1. Znode 兼具文件和目录两种特点
  2. Znode 具有原子性操作
  3. Znode 存储数据大小有限制
  4. Znode 通过路径引用(路径必须是绝对的)

2.2. 数据结构图

Alt
图中的每个节点称为一个 Znode。 每个 Znode 由 3 部分组成:

  • 1 stat:此为状态信息, 描述该 Znode 的版本, 权限等信息
  • 2 data:与该 Znode 关联的数据
  • 3 children:该 Znode 下的子节点

2.3. 节点类型

Znode 有两种,分别为临时节点永久节点。 节点的类型在创建时即被确定,并且不能改变。
临时节点:该节点的生命周期依赖于创建它们的会话。一旦会话结束,临时节点将被自动删除,当然可以也可以手动删除。临时节点不允许拥有子节点。
永久节点:该节点的生命周期不依赖于会话,并且只有在客户端显示执行删
除操作的时候,他们才能被删除。
Znode 还有一个序列化的特性,如果创建的时候指定的话,该 Znode 的名字后面会自动追加一个不断增加的序列号。序列号对于此节点的父节点来说是唯一 的,这样便会记录每个子节点创建的先后顺序。它的格式为“%10d”(10 位数字, 没有数值的数位用 0 补充,例如“0000000001”)。

2.4. 节点属性

每个 znode 都包含了一系列的属性,通过命令 get,可以获得节点的属性。在这里插入图片描述

  • ataVersion:数据版本号,每次对节点进行 set 操作,dataVersion 的值都 会增加 1(即使设置的是相同的数据),可有效避免了数据更新时出现的先后顺 序问题。
  • cversion :子节点的版本号。当 znode 的子节点有变化时,cversion 的值 就会增加 1。
  • aclVersion :ACL 的版本号。
  • cZxid :Znode 创建的事务 id。
  • mZxid :Znode 被修改的事务 id,即每次对 znode 的修改都会更新 mZxid。 对于 zk 来说,每次的变化都会产生一个唯一的事务 id,zxid(ZooKeeper
    Transaction Id)。通过 zxid,可以确定更新操作的先后顺序。例如,如果 zxid1 小于 zxid2,说明 zxid1 操作先于 zxid2 发生,zxid 对于整个 zk 都是唯一的, 即使操作的是不同的 znode。
  • ctime:节点创建时的时间戳.
  • mtime:节点最新一次更新发生时的时间戳.
  • ephemeralOwner:如果该节点为临时节点, ephemeralOwner 值表示与该节点 绑定的 session id. 如果不是, ephemeralOwner 值为 0.
    在 client 和 server 通信之前,首先需要建立连接,该连接称为 session。连 接建立后,如果发生连接超时、授权失败,或者显式关闭连接,连接便处于 CLOSED 状态, 此时 session 结束。

2.4. shell操作

创建节点
create [-s] [-e] path data acl
其中,-s 或-e 分别指定节点特性,顺序或临时节点,若不指定,则表示持 久节点;acl 用来进行权限控制。
读取节点
与读取相关的命令有ls 命令和get 命令,ls命令可以列出Zookeeper指 定节点下的所有子节点,只能查看指定节点下的第一级的所有子节点;get 命令 可以获取 Zookeeper 指定节点的数据内容和属性信息。
ls path [watch]
get path [watch]
ls2 path [watch]
更新节点
set path data [version]
data 就是要更新的新内容,version 表示数据版本。
删除节点
delete path [version]
若删除节点存在子节点,那么无法删除该节点,必须先删除子节点,再删除 父节点。
Rmr path 可以递归删除节点。
quota
setquota -n|-b val path 对节点增加限制。 n:表示子节点的最大个数
b:表示数据值的最大长度 val:子节点最大个数或数据值的最大长度 path:节点路径
listquota path 列出指定节点的 quota
delquota [-n|-b] path 删除 quota
其他命令
history : 列出命令历史
redo:该命令可以重新执行指定命令编号的历史命令,命令编号可以通过 history 查看

3.Watcher

ZooKeeper 提供了分布式数据发布/订阅功能,一个典型的发布/订阅模型系 统定义了一种一对多的订阅关系,能让多个订阅者同时监听某一个主题对象,当 这个主题对象自身状态变化时,会通知所有订阅者,使他们能够做出相应的处理。
ZooKeeper 中,引入了 Watcher 机制来实现这种分布式的通知功能。 ZooKeeper 允许客户端向服务端注册一个 Watcher 监听,当服务端的一些事件触 发了这个 Watcher,那么就会向指定客户端发送一个事件通知来实现分布式的通 知功能。
触发事件种类很多,如:节点创建,节点删除,节点改变,子节点改变等。
总的来说可以概括 Watcher 为以下三个过程:

  • 客户端向服务端注册 Watcher
  • 服务端事件发生触发 Watcher
  • 客户端回调 Watcher 得到触发事件情况

3.1.Watch 机制特点

一次性触发
事件发生触发监听,一个watcher event就会被发送到设置监听的客户端, 这种效果是一次性的,后续再次发生同样的事件,不会再次触发。
事件封装
ZooKeeper 使用 WatchedEvent 对象来封装服务端事件并传递。 WatchedEvent 包含了每一个事件的三个基本属性:

  • 通知状态(keeperState)
  • 事件类型(EventType)
  • 节点路径(path)

event 异步发送
watcher 的通知事件从服务端发送到客户端是异步的。
先注册再触发
Zookeeper 中的 watch 机制,必须客户端先去服务端注册监听,这样事件发 送才会触发监听,通知给客户端。

3.2.通知状态和事件类型

同一个事件类型在不同的通知状态中代表的含义有所不同,下表列举了常见的通知状态和事件类型。在这里插入图片描述
其中连接状态事件(type=None, path=null)不需要客户端注册,客户端只要 有需要直接处理就行了。

4. Java API

org.apache.zookeeper.Zookeeper
Zookeeper 是在Java中客户端主类,负责建立与zookeeper集群的会话, 并提供方法进行操作。
org.apache.zookeeper.Watcher
Watcher 接口表示一个标准的事件处理器,其定义了事件通知相关的逻辑, 包含 KeeperState 和 EventType 两个枚举类,分别代表了通知状态和事件类型, 同时定义了事件的回调方法:process(WatchedEvent event)。
process 方法是 Watcher 接口中的一个回调方法,当 ZooKeeper 向客户端发 送一个 Watcher 事件通知时,客户端就会对相应的 process 方法进行回调,从而 实现对事件的处理。

4.1. 基本使用

建立 java maven 项目,引入 maven pom 坐标。

 <dependency>
	<groupId>org.apache.zookeeper</groupId>
	<artifactId>zookeeper</artifactId>
	<version>3.4.9</version>
</dependency>
public static void main(String[] args) throws Exception {
// 初始化 ZooKeeper 实例(zk 地址、会话超时时间,与系统默认一致、watcher)
	ZooKeeper zk = new ZooKeeper("node-1:2181,node-2:2181", 30000, new Watcher() {
    	@Override
		public void process(WatchedEvent event) { 
			System.out.println("事件类型为:" + event.getType()); 
			System.out.println("事件发生的路径:" + event.getPath()); 
			System.out.println("通知状态为:" +event.getState());
	}
	 });
zk.create("/myGirls", "性感的".getBytes("UTF-8"), Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT);
zk.close();

4.2.更多示例

public static void main(String[] args) throws Exception {
	// 初始化 ZooKeeper 实例(zk 地址、会话超时时间,与系统默认一致、watcher)
	ZooKeeper zk = new ZooKeeper("node-21:2181,node-22:2181", 30000, new Watcher() {
		@Override
		public void process(WatchedEvent event) { 
		System.out.println("事件类型为:" + event.getType()); 
		System.out.println("事件发生的路径:" + event.getPath()); 
		System.out.println("通知状态为:" +event.getState());
	} 
});
// 创建一个目录节点
zk.create("/testRootPath", "testRootData".getBytes(), Ids.OPEN_ACL_UNSAFE,CreateMode.PERSISTENT);
// 创建一个子目录节点
zk.create("/testRootPath/testChildPathOne","testChildDataOne".getBytes(),Ids.OPEN_ACL_UNSAFE,CreateMode.PERSISTENT);
System.out.println(new String(zk.getData("/testRootPath",false,null)));
// 取出子目录节点列表
System.out.println(zk.getChildren("/testRootPath",true));
// 修改子目录节点数据 zk.setData("/testRootPath/testChildPathOne","modifyChildDataOne".getBytes(),-1); System.out.println("目录节点状态:["+zk.exists("/testRootPath",true)+"]");
// 创建另外一个子目录节点
zk.create("/testRootPath/testChildPathTwo", "testChildDataTwo".getBytes(),Ids.OPEN_ACL_UNSAFE,CreateMode.PERSISTENT);
System.out.println(new String(zk.getData("/testRootPath/testChildPathTwo",true,null))); // 删除子目录节点
zk.delete("/testRootPath/testChildPathTwo",-1); zk.delete("/testRootPath/testChildPathOne",-1);
// 删除父目录节点
 zk.delete("/testRootPath",-1);
 zk.close();
}

5. 选举机制

zookeeper 默认的算法是 FastLeaderElection,采用投票数大于半数则胜出的逻辑。

5.1. 概念

服务器 ID

  • 比如有三台服务器,编号分别是 1,2,3。
  • 编号越大在选择算法中的权重越大。

选举状态

  • LOOKING,竞选状态。
  • FOLLOWING,随从状态,同步 leader 状态,参与投票。
  • OBSERVING,观察状态,同步 leader 状态,不参与投票。
  • LEADING,领导者状态。
    数据 ID
  • 服务器中存放的最新数据 version。
  • 值越大说明数据越新,在选举算法中数据越新权重越大。
    逻辑时钟
    也叫投票的次数,同一轮投票过程中的逻辑时钟值是相同的。每投完一次票 这个数据就会增加,然后与接收到的其它服务器返回的投票信息中的数值相比, 根据不同的值做出不同的判断。

5.2. 全新集群选举

假设目前有 5 台服务器,每台服务器均没有数据,它们的编号分别是 1,2,3,4,5,按编号依次启动,它们的选择举过程如下:

  • 服务器 1 启动,给自己投票,然后发投票信息,由于其它机器还没有启 动所以它收不到反馈信息,服务器 1 的状态一直属于 Looking。
  • 服务器 2 启动,给自己投票,同时与之前启动的服务器 1 交换结果,由 于服务器 2 的编号大所以服务器 2 胜出,但此时投票数没有大于半数, 所以两个服务器的状态依然是 LOOKING。
  • 服务器 3 启动,给自己投票,同时与之前启动的服务器 1,2 交换信息, 由于服务器 3 的编号最大所以服务器 3 胜出,此时投票数正好大于半数, 所以服务器 3 成为领导者,服务器 1,2 成为小弟。
  • 服务器 4 启动,给自己投票,同时与之前启动的服务器 1,2,3 交换信息, 尽管服务器 4 的编号大,但之前服务器 3 已经胜出,所以服务器 4 只能 成为小弟。
  • 服务器 5 启动,后面的逻辑同服务器 4 成为小弟。

5.3. 非全新集群选举

对于运行正常的 zookeeper 集群,中途有机器 down 掉,需要重新选举时, 选举过程就需要加入数据 ID服务器 ID逻辑时钟

  • 数据 ID:数据新的 version 就大,数据每次更新都会更新 version。
  • 服务器 ID:就是我们配置的 myid 中的值,每个机器一个。
  • 逻辑时钟:这个值从 0 开始递增,每次选举对应一个值。 如果在同一次选举中,这个值是一致的。

这样选举的标准就变成:

  • 1、逻辑时钟小的选举结果被忽略,重新投票;
  • 2、统一逻辑时钟后,数据 id 大的胜出;
  • 3、数据 id 相同的情况下,服务器 id 大的胜出;
    根据这个规则选出 leader。

6. 典型应用

6.1. 数据发布与订阅(配置中心)

发布与订阅模型,即所谓的配置中心,顾名思义就是发布者将数据发布到 ZK 节点上,供订阅者动态获取数据,实现配置信息的集中式管理和动态更新
应用在启动的时候会主动来获取一次配置,同时,在节点上注册一个 Watcher, 这样一来,以后每次配置有更新的时候,都会实时通知到订阅的客户端,从来达 到获取最新配置信息的目的。比如:
分布式搜索服务中,索引的元信息和服务器集群机器的节点状态存放在 ZK 的一些指定节点,供各个客户端订阅使用。
注意:适合数据量很小的场景,这样数据更新可能会比较快。

6.2. 命名服务(Naming Service)

在分布式系统中,通过使用命名服务,客户端应用能够根据指定名字来获取 资源或服务的地址,提供者等信息。被命名的实体通常可以是集群中的机器,提供的服务地址,远程对象等等——这些我们都可以统称他们为名字(Name)。其中较为常见的就是一些分布式服务框架中的服务地址列表。通过调用 ZK 提供的 创建节点的 API,能够很容易创建一个全局唯一的 path,这个 path 就可以作为 一个名称。
阿里巴巴集团开源的分布式服务框架 Dubbo 中使用 ZooKeeper 来作为其命名服务,维护全局的服务地址列表。

6.3. 分布式锁

分布式锁,这个主要得益于 ZooKeeper 保证了数据的强一致性。锁服务可以分为两类,一个是保持独占,另一个是控制时序。
所谓保持独占,就是所有试图来获取这个锁的客户端,最终只有一个可以成功获得这把锁。通常的做法是把 zk 上的一个 znode 看作是一把锁,通过 create znode 的方式来实现。所有客户端都去创建 /distribute_lock 节点,最终成功创建的那个客户端也即拥有了这把锁。
控制时序,就是所有试图来获取这个锁的客户端,最终都是会被安排执行, 只是有个全局时序了。做法和上面基本类似,只是这里 /distribute_lock 已经 预先存在,客户端在它下面创建临时有序节点(这个可以通过节点的属性控制: CreateMode.EPHEMERAL_SEQUENTIAL 来指定)。Zk 的父节点(/distribute_lock) 维持一份 sequence,保证子节点创建的时序性,从而也形成了每个客户端的全局时序。

  • 1
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值