ZoonKeeper的一些原理

阿狸轰

于 2023-11-23 19:34:06 发布

阅读量1.2k

点赞数 30

分类专栏： java 文章标签：分布式 zookeeper

本文链接：https://blog.csdn.net/Alaskan_Husky/article/details/134584063

版权

java 专栏收录该内容

47 篇文章 1 订阅

订阅专栏

Apache ZooKeeper是一个分布式的协调服务，用于构建分布式应用程序。它提供了一个简单的接口，使得分布式系统中的多个节点可以协同工作。以下是ZooKeeper的一些基本原理：

1.分布式协调服务：

ZooKeeper的主要目标是提供一个可靠的协调服务，帮助分布式系统中的各个节点进行通信、同步和协同工作。它的设计目标是在分布式环境中实现高可用性和一致性。

2.数据模型：

ZooKeeper维护一个类似文件系统的层次化数据模型，称为ZooKeeper树（ZooKeeper Znode Tree）。每个节点（Znode）都可以包含数据和子节点，类似于文件系统中的目录和文件。

/
|-- app
|   |-- config
|   |   |-- server1
|   |   |-- server2
|   |   |-- server3
|   |
|   |-- status
|
|-- services
    |-- jobQueue
    |   |-- task1
    |   |-- task2
    |   |-- task3
    |
    |-- notifications
        |-- notification1
        |-- notification2

层次化结构：ZooKeeper 数据模型采用类似文件系统的层次化结构，其中每个 Znode 类似于文件系统中的一个节点。这种层次化结构使得开发者可以更方便地组织和管理数据。
Znode：Znode 是 ZooKeeper 数据模型中的基本单元。每个 Znode 都有一个唯一的路径（类似于文件的路径），路径以斜杠（/）分隔。例如，/app/config 表示了一个路径为 /app/config 的 Znode。
数据存储：每个 Znode 可以包含一小段数据。这些数据通常是以字节形式存储的，可以是配置信息、元数据等。ZooKeeper并不对数据的内容进行解释，而是将其视为不透明的字节序列。
顺序性 Znode：ZooKeeper 提供了顺序性 Znode 的特性。当创建一个 Znode 时，可以选择使其成为有序的。有序 Znode 的名称会附加一个序号，表示其在父节点中的顺序。这在实现分布式队列等场景中很有用。
临时性 Znode：ZooKeeper 还支持创建临时性 Znode。临时性 Znode 在创建它的客户端会话结束后自动删除。这对于实现分布式锁等场景很有帮助。
Watch 机制：ZooKeeper 提供了 Watch 机制，允许客户端监测 Znode 的变化。当 Znode 的状态发生变化时，ZooKeeper 将通知对该 Znode 注册了 Watch 的客户端。
节点类型：ZooKeeper 中的 Znode 可以有不同的类型，包括持久性节点（persistent）、临时性节点（ephemeral）、持久顺序节点（persistent-sequential）和临时顺序节点（ephemeral-sequential）等。

3.原子性操作：

ZooKeeper实现原子性操作的核心在于使用版本号（version）来对数据进行控制。版本号是一个递增的整数，每次数据的变更都会使版本号增加。这个机制有助于确保多个客户端对同一数据节点的操作是有序的。

ZooKeeper的原子性操作主要包括以下几种：

创建节点：创建节点时，如果指定了SEQUENTIAL选项，ZooKeeper会在节点名称后附加一个全局唯一的递增序列号，确保节点名称的唯一性和有序性。
删除节点：删除节点时，可以指定版本号，只有当节点的版本号与指定的版本号一致时才能成功删除。这避免了删除操作的竞争条件。
读取节点数据：读取节点数据时，可以指定版本号，确保读取的数据是指定版本的数据。如果读取的版本号与当前节点版本号不一致，则读取失败。
写入节点数据：写入节点数据时，可以指定版本号。如果指定的版本号与当前节点版本号一致，说明数据没有被其他客户端修改过，允许写入；否则，写入操作将失败。
CAS（Compare and Set）操作：ZooKeeper提供了setData操作，可以通过指定版本号进行 CAS 操作。如果指定版本号与当前节点版本号一致，才会进行数据的更新。

通过版本号的控制，ZooKeeper确保了对节点的操作是有序且具有原子性的。这样的设计使得多个客户端可以协同工作，而不会导致数据不一致或竞争条件的问题。

需要注意的是，对于SEQUENTIAL选项创建的节点，ZooKeeper并不能保证节点名称的连续递增，但可以保证节点名称的全局唯一性和相对有序性，因为序列号是全局唯一的。这种特性常用于实现分布式队列等场景。

4.节点监测和通知机制：

ZooKeeper的节点监测和通知机制是通过Watch（监视器）实现的。Watch机制允许客户端在ZooKeeper的某个节点上注册一个Watcher，一旦该节点的状态发生变化，ZooKeeper将通知相关的客户端，从而触发相应的事件处理。

以下是关于ZooKeeper节点监测和通知机制的主要特点和使用方法：

注册Watcher：客户端可以在节点上注册不同类型的Watcher，包括对节点本身的变化、子节点的变化等。注册Watcher时，需要指定节点路径和Watcher对象。
节点事件类型：Watcher可以关注节点的创建、删除、数据变更等事件。当这些事件发生时，ZooKeeper会通知注册了相应Watcher的客户端。
一次性触发：Watcher是一次性的，即一旦触发了一次事件通知，该Watcher就失效了。因此，如果客户端希望持续监测某个节点，需要在每次收到通知后重新注册Watcher。
Watch的注册方式：客户端在对节点注册Watcher时，可以选择使用getData()、exists()或getChildren()等方法。不同的方法对应不同的事件类型。例如，使用exists()方法注册的Watcher会监测节点的创建、删除、数据变更等事件。
Watch的异步性：Watcher是异步的，注册Watcher的方法调用会立即返回，而不会等待事件发生。一旦事件发生，ZooKeeper会通过连接客户端的会话发送事件通知。
Watch的失效处理：由于Watcher是一次性的，客户端在收到通知后需要考虑是否需要重新注册Watcher。如果需要持续监测，应在事件处理的同时重新注册Watcher。

在上述示例中，通过zooKeeper.exists(nodePath, this)注册了一个Watcher，用于监测指定节点的数据变更事件。在process方法中，处理了节点数据变更的情况，并重新注册了Watcher以确保持续监测。

5.顺序一致性：

ZooKeeper 通过在设计和实现上采取一系列措施来保证顺序一致性。以下是 ZooKeeper 如何保证顺序一致性的关键机制：

全局递增的事务 ID：ZooKeeper 将所有的写操作都编入全局递增的事务 ID（Zxid）中。这个 Zxid 可以唯一标识每个写入操作，并且它的递增顺序反映了写入发生的顺序。每个事务都会被赋予一个唯一的 Zxid。
Zab协议：ZooKeeper 使用 Zab（ZooKeeper Atomic Broadcast）协议来确保分布式系统中所有 ZooKeeper 服务器之间的数据一致性。Zab 协议通过主节点（Leader）的选举和广播机制来保证所有服务器都接收相同的写入请求，从而实现一致性。
主节点的顺序处理：在 ZooKeeper 集群中，一个节点被选为主节点（Leader），负责接收和处理所有写入请求。由于主节点对写入请求的处理是顺序的，这就保证了写入的顺序一致性。其他节点（跟随者）接收并按照主节点的顺序应用写入请求，以保持数据的一致性。
节点间同步：跟随者节点会通过 Leader 节点同步写入请求。在同步的过程中，它们按照 Leader 节点的处理顺序来应用写入请求，从而确保所有节点都以相同的顺序接收并处理写入。
ZooKeeper的节点类型：在 ZooKeeper 中，节点可以是持久性的、临时性的、持久性顺序的、临时性顺序的等不同类型。持久性顺序节点会根据创建的顺序附加一个递增的序列号，以保证节点的顺序性。

总体而言，通过 Zab 协议、主节点的顺序处理、节点间的同步等机制，ZooKeeper 实现了顺序一致性。这意味着，无论客户端连接到哪个 ZooKeeper 节点，都能够以相同的顺序看到写入的变更，从而确保了在分布式系统中的一致性。

6.分布式锁和同步：

6.1.分布式锁

建锁节点：客户端尝试在ZooKeeper上创建一个临时性节点，表示获取锁。由于临时性节点的特性，当客户端失去连接或主动释放锁时，该节点会自动删除。
检查锁状态：在尝试创建节点后，客户端需要检查是否成功创建了节点。如果成功，表示获取了锁；否则，客户端需要等待其他客户端释放锁，并监听前一个节点的变化。
监听前一个节点：如果未成功创建节点，客户端需要监听前一个节点的状态变化。一旦前一个节点被删除（即锁被释放），客户端再次尝试创建节点。

6.2.同步

创建顺序临时性节点：客户端创建一个顺序临时性节点，表示一个同步点，也表示获取锁。这样的节点会按照创建的顺序形成一个序列，客户端通过观察节点的序列号来确定自己的执行顺序。由于临时性节点的特性，当客户端失去连接或主动释放锁时，该节点会自动删除
获取当前所有节点列表：客户端获取当前同步点下的所有节点列表，并根据节点的序列号进行排序。
判断自己的执行顺序：客户端判断自己的节点是否是排序后列表的第一个节点。如果是，表示该客户端获得执行权；否则，客户端监听前一个节点，并等待前一个节点释放执行权。
释放执行权：执行完操作后，客户端释放节点，其他客户端即可获取执行权。

下面是一个使用Java的ZooKeeper客户端Curator来实现分布式锁的简单示例：

import org.apache.curator.framework.CuratorFramework;
import org.apache.curator.framework.CuratorFrameworkFactory;
import org.apache.curator.framework.recipes.locks.InterProcessMutex;
import org.apache.curator.retry.ExponentialBackoffRetry;

public class DistributedLockExample {

    private static final String ZK_ADDRESS = "localhost:2181";
    private static final String LOCK_PATH = "/distributed_lock";

    public static void main(String[] args) {
        CuratorFramework client = CuratorFrameworkFactory.newClient(
            ZK_ADDRESS, new ExponentialBackoffRetry(1000, 3));
        client.start();

        // 使用Curator的InterProcessMutex实现分布式锁
        InterProcessMutex lock = new InterProcessMutex(client, LOCK_PATH);

        try {
            // 尝试获取锁
            lock.acquire();
            
            // 执行业务逻辑

        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            try {
                // 释放锁
                lock.release();
            } catch (Exception e) {
                e.printStackTrace();
            }
        }

        // 关闭ZooKeeper客户端连接
        client.close();
    }
}

7.Quorum机制：

ooKeeper的Quorum机制是通过Zab协议（ZooKeeper Atomic Broadcast）来实现的。Quorum机制确保在分布式环境中，只有在大多数节点达成一致意见时，系统才会继续提供服务。以下是Quorum机制的主要原理：

Quorum节点：ZooKeeper集群中的每个节点都是一个Quorum节点。Quorum节点包括主节点（Leader）和跟随者节点（Follower）。集群需要至少有一半以上的节点正常工作，才能保证Quorum的正确运作。
Leader选举：初始时，或者在主节点失效时，ZooKeeper集群需要选举新的主节点。Leader选举过程是通过Zab协议中的一系列约定来完成的，最终选举出的节点成为新的Leader。
事务广播：Leader节点负责接收客户端的写请求，并将这些写请求通过Zab协议进行广播给所有节点。Zab协议保证了写入的原子性、顺序性和可靠性。
节点同步：跟随者节点在接收到Leader的写入请求后，需要同步这些写入。通过Leader的同步机制，跟随者节点保持与Leader节点相同的数据状态。
Quorum条件：对于有N个节点的ZooKeeper集群，通常采用N/2 + 1的Quorum条件。这样，只要大多数节点正常工作，集群就能继续提供服务。例如，一个包含5个节点的集群，需要至少3个节点正常工作，而一个包含7个节点的集群需要至少4个节点正常工作。
避免脑裂（Split Brain）：Quorum机制有助于避免脑裂问题，即在分布式系统中的不同子系统之间出现独立运行的情况。Quorum机制要求节点的大多数达成一致，从而防止了脑裂。

8.Leader选举：

ZooKeeper的Leader选举是保证分布式系统中ZooKeeper服务的高可用性的关键机制。以下是Leader选举的基本流程：

节点启动：初始时，所有节点都是Follower状态。每个节点都会尝试成为Leader。
投票轮次（Epoch）：ZooKeeper维护了一个递增的轮次（Epoch）。在每个轮次中，节点都有机会成为Leader。每个节点在投票时都会携带自己的轮次信息。一个节点在进行投票时，通常是不会投票给自己的。这是为了确保选举的公平性和正确性。
选票广播：每个节点都向其他节点发送投票请求，请求包括了节点的ID和当前轮次。节点收到投票请求后，会检查请求中的轮次信息。
投票响应：如果节点收到的投票请求中的轮次信息比自己的轮次信息新，它就会接受这个节点的投票。如果节点已经投过票给其他节点，则不再接受其他节点的投票。
Leader条件：一个节点在当前轮次中获得超过半数的投票，且它自己的轮次信息是最新的，那么这个节点就成为Leader。这个过程中，节点要确保收到的投票信息来自于足够多的节点，即获得Quorum。
Leader同步：新成为Leader的节点会向其他节点发送同步请求，要求它们将数据同步给自己。其他节点会响应同步请求，确保新Leader获取的数据是最新的。
Leader失效：如果当前Leader失效，即不再发送心跳或者无法与其他节点通信，其他节点会重新发起Leader选举流程。
Leader切换：如果新一轮的Leader选举成功，新的Leader将接替原Leader的职责。这确保了即使发生节点故障，ZooKeeper服务仍然能够保持高可用性。

9.Watch机制：

ZooKeeper的Watch机制是一种事件通知机制，允许客户端在节点发生变化时得到通知。这种机制使得分布式应用能够实时响应数据的变化，而无需轮询或持续查询。

以下是ZooKeeper Watch机制的基本原理和使用方式：

注册Watcher：客户端在ZooKeeper上注册Watcher时，可以指定对节点的创建、删除、数据变更等事件感兴趣。
触发Watch：当指定的事件发生时，ZooKeeper会触发相应的Watch，通知相关的客户端。
一次性触发：Watcher是一次性的，即一旦触发了一次，就会失效。客户端需要在每次收到通知后重新注册Watcher，以保持持续监测。
节点状态：Watcher并不提供节点的实时状态，而是在特定事件发生时发送通知。如果客户端需要节点的当前状态，仍然需要通过查询ZooKeeper获取。

以下是一个简单的Java示例，演示如何在ZooKeeper节点上注册Watcher：

import org.apache.zookeeper.WatchedEvent;
import org.apache.zookeeper.Watcher;
import org.apache.zookeeper.ZooKeeper;

public class NodeWatcher implements Watcher {

    private ZooKeeper zooKeeper;

    public NodeWatcher(ZooKeeper zooKeeper) {
        this.zooKeeper = zooKeeper;
    }

    @Override
    public void process(WatchedEvent event) {
        if (event.getType() == Event.EventType.NodeDataChanged) {
            // 处理节点数据变更事件
            System.out.println("Node data changed: " + event.getPath());
            try {
                // 重新注册Watcher
                zooKeeper.exists(event.getPath(), this);
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
    }

    public static void main(String[] args) throws Exception {
        String zkAddress = "localhost:2181";
        ZooKeeper zooKeeper = new ZooKeeper(zkAddress, 5000, null);

        // 节点路径
        String nodePath = "/exampleNode";

        // 注册Watcher
        zooKeeper.exists(nodePath, new NodeWatcher(zooKeeper));

        // 业务逻辑
        // ...

        // 关闭ZooKeeper连接
        zooKeeper.close();
    }
}

10.事务日志和快照：

ZooKeeper使用事务日志（Transaction Log）和快照（Snapshot）来保证数据的一致性和持久性。

1. 事务日志（Transaction Log）：

作用： 事务日志用于记录每个写入操作的详细信息，包括节点的创建、删除、数据变更等操作。
特点： 日志中的每个条目都对应着一个ZooKeeper事务，每个事务都有一个唯一的事务ID（Zxid）。
持久性： 事务日志是持久性的，即写入到磁盘上的文件。这样，即使ZooKeeper服务重启，它可以通过重新读取事务日志来恢复之前的状态。
日志滚动： 为了防止日志文件无限增长，ZooKeeper会定期进行日志滚动，将旧的日志文件压缩成快照文件，只保留最近的事务日志。

2. 快照（Snapshot）：

作用： 快照是对ZooKeeper数据的定期拍摄，用于加速数据恢复过程。
内容： 快照包含了某个时间点上所有节点的当前数据状态，但不包含最近的事务。
定期生成： ZooKeeper会定期创建快照，生成一个包含当前数据状态的文件。
优化数据恢复： 在服务启动时，如果有最近的快照文件，ZooKeeper可以通过读取快照文件来快速加载数据，而不必从头开始逐个执行事务日志中的每个操作。

11.会话：

ZooKeeper会话（Session）是客户端与ZooKeeper服务之间的一个会话连接，用于保持客户端和服务端的通信。以下是ZooKeeper会话的基本流程：

11.1. 客户端连接：

客户端启动： 客户端启动时，会尝试与ZooKeeper服务建立连接。
连接请求： 客户端向ZooKeeper服务发送连接请求。
服务端响应： ZooKeeper服务收到连接请求后，根据服务端的负载情况，决定是否接受连接。
会话建立： 如果连接被接受，客户端和服务端建立了一个会话，分配了一个唯一的Session ID给客户端。这个会话ID用于标识客户端的会话。

11.2. 会话维持：

心跳机制： 一旦会话建立，客户端和服务端之间会维持一个心跳机制。客户端会定期发送心跳请求给服务端，以确保连接的存活性。
服务端响应： 服务端收到心跳请求后，会响应确认信息，同时更新会话的超时时间。
超时处理： 如果服务端在一定时间内没有收到客户端的心跳请求，或者客户端在一定时间内没有收到服务端的响应，就会认为会话超时。

11.3. 会话过期：

会话超时： 一旦会话超时，ZooKeeper服务会将与该会话关联的所有临时性节点标记为删除，同时释放与该会话相关的资源。
客户端感知： 客户端可以通过注册的Watcher机制感知会话的过期。当会话过期时，相关的Watcher将被触发。
重连： 客户端可以尝试重新连接ZooKeeper服务。如果会话过期是由于网络故障等原因引起的，客户端可以通过重新连接继续使用先前的会话ID。

12.ACL（访问控制列表）：

在ZooKeeper中，ACL（Access Control List）用于控制对ZooKeeper节点的访问权限。ACL规定了哪些用户或者哪些IP地址有权对ZooKeeper节点执行读取、写入、创建等操作。以下是ZooKeeper ACL的基本实现方式：

12.1. ACL权限：

ZooKeeper定义了如下几种权限：

CREATE: 允许创建子节点。
READ: 允许读取节点的数据及列出其子节点。
WRITE: 允许设置节点的数据。
DELETE: 允许删除节点及其所有子节点。
ADMIN: 允许设置节点的ACL。

12.2. ACL表达式：

ZooKeeper使用ACL表达式来表示权限。一个ACL由三部分组成：

Scheme: 定义了认证方式，例如"digest"、"ip"、"world"等。
ID: 标识了具体的用户或者IP地址。
Permission: 表示允许的权限。

例如，使用digest方案时，可以通过用户名和密码来定义ID；使用ip方案时，可以通过IP地址定义ID。

12.3. 设置ACL：

在ZooKeeper中，可以通过create和setACL等操作来设置节点的ACL。例如：

create /exampleNode "data" acl-digest:username:password:READ,WRITE

上述命令创建了一个名为/exampleNode的节点，设置了一个ACL，允许用户"username"以密码"password"读取和写入节点的权限。

12.4. 编程设置ACL：

在ZooKeeper的客户端API中，可以使用ZooDefs.Ids类来构建一些常见的ACL表达式。例如，在Java中：

import org.apache.zookeeper.ZooDefs;
import org.apache.zookeeper.data.ACL;
import org.apache.zookeeper.data.Ids;

// 创建一个ACL，允许world中的任何人READ权限
ACL acl = new ACL(ZooDefs.Perms.READ, Ids.ANYONE_ID_UNSAFE);

12.5. 多个ACL：

一个节点可以设置多个ACL，每个ACL都会被逐一检查。只要有一个ACL允许访问，访问就会被允许。

12.6. 默认ACL：

当创建节点时，如果不显式指定ACL，ZooKeeper会使用默认的ACL。默认的ACL通常允许任何人对节点进行完整的操作。

13.分布式系统中的应用：

ZooKeeper广泛应用于分布式系统中，包括但不限于协调分布式应用、配置管理、分布式锁、领导者选举、分布式队列等。它为分布式系统提供了一种可靠的基础设施。

14.CAP定理：

ZooKeeper在设计上是以保证CP（一致性和分区容忍性）为主的，而在可用性上牺牲了一些。这使得ZooKeeper在分布式环境下能够提供强一致性的服务，即任何时刻所有的客户端看到的数据视图是一致的。

具体来说，ZooKeeper通过以下方式来保证CAP定理中的一致性和分区容忍性：

14.1. 一致性（Consistency）：

原子性操作： ZooKeeper提供原子性操作，即所有的更新请求都会被按照其发生的顺序进行处理。这确保了在分布式环境中，各个节点上的数据是强一致的。
严格顺序性： ZooKeeper保证了事务的严格顺序性，即所有的写入请求都按照相同的顺序被所有的节点接受和应用。

14.2. 分区容忍性（Partition Tolerance）：

Quorum机制： ZooKeeper采用了Quorum机制，保证在任何时刻只有一个节点是Leader，其他节点是Follower。只有Leader节点能够处理写请求，保证了分区情况下的数据一致性。
多数派原则： 为了保证Quorum中大多数节点的一致性，ZooKeeper要求Quorum节点数为2n+1。这样，只有大多数节点正常工作，系统才能提供服务。这确保了在分区的情况下，能够保持一致性。

虽然ZooKeeper保证了一致性和分区容忍性，但在CAP定理中，牺牲了可用性。在分区的情况下，ZooKeeper要求Quorum中的大多数节点正常工作，否则服务将不可用。这意味着在分区的情况下，如果无法达到Quorum的要求，ZooKeeper会选择保持一致性而放弃可用性。