java之学习记录 7 - 1 - 分布式技术Zookeeper介绍（上）

最新推荐文章于 2024-07-16 09:38:57 发布

dear_Zzzx

最新推荐文章于 2024-07-16 09:38:57 发布

阅读量107

点赞数

分类专栏： java

本文链接：https://blog.csdn.net/dear_zx/article/details/113809479

版权

java 专栏收录该内容

105 篇文章 1 订阅

订阅专栏

1. Zookeeper概述

1.1 概述

美团，饿了么，淘宝，58同城等等应用都是zookeeper的现实生活版
开了个饭店，如何才能让大家都能吃到我的饭菜？需要入驻美团，这样大家就可以在美团app中看到我的饭店，下订单，从而完成一次交易
Zookeeper是一个开源的分布式（多台服务器干一件事）的，为分布式应用提供协调服务的Apache项目。
在大数据技术生态圈中，zookeeper（动物管理员），Hadoop（大象），Hive（蜜蜂）， Pig（猪）等技术

1.2 工作机制

Zookeeper从设计模式角度来理解：是一个基于观察者模式（一个人干活，有人盯着他）设计的分布式服务管理框架
它负责存储和管理大家都关心的数据
- 然后接受观察者的注册，一旦这些数据的发生变化
- Zookeeper就将负责通知已经注册的那些观察者做出相应的反应
- 从而实现集群中类似Master/Slave管理模式
Zookeeper = 文件系统 + 通知机制

1. 商家营业并入驻

2. 获取到当前营业的饭店列表

3. 服务器节点下线

4. 服务器节点上下线事件通知

5. 重新再去获取服务器列表，并注册监听

1.3 特点

分布式和集群的区别？
- 无论分布式和集群，都是很多人在做事情。具体区别如下：
- 例如：我有一个饭店，越来越火爆，我得多招聘一些工作人员
  - 分布式：招聘1个厨师，1个服务员，1个前台，三个人负责的工作不一样，但是最终目的都是为饭店工作
  - 集群：招聘3个服务员，3个人的工作一样

1. 是一个leader和多个follower来组成的集群（狮群中，一头雄狮，N头母狮）
2. 集群中只要有半数以上的节点存活，Zookeeper就能正常工作（5台服务器挂2台，没问题；4台服务器挂2台，就停止）
3. 全局数据一致性，每台服务器都保存一份相同的数据副本，无论client连接哪台server，数据都是一致的
4. 数据更新原子性，一次数据要么成功，要么失败（不成功便成仁）
5. 实时性，在一定时间范围内，client能读取到最新数据
6. 更新的请求按照顺序执行，会按照发送过来的顺序，逐一执行（发来123，执行123，而不是321或者别的）

1.4 数据结构

ZooKeeper数据模型的结构与linux文件系统很类似，整体上可以看作是一棵树，每个节点称做一个ZNode（ZookeeperNode）。
每一个ZNode默认能够存储1MB的数据（元数据），每个ZNode的路径都是唯一的
- 元数据（Metadata），又称中介数据、中继数据，为描述数据的数据（data aboutdata），主要是描述数据属性（property）的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能

1.5 应用场景

提供的服务包括：统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡等

1.5.1 统一命名服务

在分布式环境下，通常需要对应用或服务进行统一的命名，便于识别
例如：服务器的IP地址不容易记，但域名相比之下却是很容易记住

1.5.2 统一配置管理

分布式环境下，配置文件做同步是必经之路
1000台服务器，如果配置文件作出修改，那一台一台的修改，运维人员肯定会疯，如何做到修改一处就快速同步到每台服务器上

将配置管理交给Zookeeper
- 1、将配置信息写入到Zookeeper的某个节点上
- 2、每个客户端都监听这个节点
- 3、一旦节点中的数据文件被修改，Zookeeper这个话匣子就会通知每台客户端服务器

1.5.3 服务器节点动态上下线

客户端能实时获取服务器上下线的变化
在美团APP上实时可以看到商家是否正在营业或打样

1.5.4 软负载均衡

Zookeeper会记录每台服务器的访问数，让访问数最少的服务器去处理最新的客户请求（雨露均沾）
都是自己的孩子，得一碗水端平

1.6 下载地址

镜像库地址： http://archive.apache.org/dist/zookeeper/

apache-zookeeper-3.6.0.tar.gz需要安装maven，然后再运行mvn clean install 和mvn javadoc:aggregate，前一个命令会下载安装好多jar包，不知道要花多长时间
apache-zookeeper-3.6.0-bin.tar.gz已经自带所需要的各种jar包

2. Zookeeper本地模式安装

2.1 本地模式安装

2.1.1 安装前准备

1. 安装jdk
2. 拷贝apache-zookeeper-3.6.0-bin.tar.gz到opt目录
3. 解压安装包

[root@localhost opt]# tar -zxvf apache-zookeeper-3.6.0-bin.tar.gz

4. 重命名

[root@localhost opt]# mv apache-zookeeper-3.6.0-bin zookeeper

2.1.2 配置修改

1. 在/opt/zookeeper/这个目录上创建zkData和zkLog目录

[root@localhost zookeeper] # mkdir zkData

[root@localhost zookeeper] # mkdir zkLog

2. 进入/opt/zookeeper/conf这个路径，复制一份 zoo_sample.cfg 文件并命名为 zoo.cfg

[root@localhost conf]# cp zoo_sample.cfg zoo.cfg

3. 编辑zoo.cfg文件，修改dataDir路径：

dataDir=/opt/zookeeper/zkData
dataLogDir=/opt/zookeeper/zkLog

2.1.3 操作Zookeeper

1. 启动Zookeeper

[root@localhost bin] # ./zkServer.sh start

2. 查看进程是否启动

[root@localhost bin]# jps

QuorumPeerMain ：是 zookeeper 集群的启动入口类，是用来加载配置启动 QuorumPeer 线程的

3. 查看状态：

[root@localhost bin]# ./zkServer.sh status

4. 启动客户端

[root@localhost bin]# ./zkCli.sh

5. 退出客户端

[zk: localhost:2181(CONNECTED) 0] quit

2.2 配置参数解读

Zookeeper 中的配置文件 zoo.cfg 中参数含义解读如下：

tickTime =2000：通信心跳数，Zookeeper服务器与客户端心跳时间，单位毫秒
- Zookeeper使用的基本时间，服务器之间或客户端与服务器之间维持心跳的时间间隔，也就是每个tickTime时间就会发送一个心跳，时间单位为毫秒。
initLimit =10：LF初始通信时限
- 集群中的Follower跟随者服务器与Leader领导者服务器之间，启动时能容忍的最多心跳数10*2000（10个心跳时间）如果领导和跟随者没有发出心跳通信，就视为失效的连接，领导和跟随者彻底断开
syncLimit =5：LF同步通信时限
- 集群启动后，Leader与Follower之间的最大响应时间单位，假如响应超过syncLimit * tickTime->10秒，Leader就认为Follwer已经死掉，会将Follwer从服务器列表中删除
dataDir：数据文件目录+数据持久化路径
- 主要用于保存Zookeeper中的数据。
dataLogDir：日志文件目录
clientPort =2181：客户端连接端口
- 监听客户端连接的端口。

3. Zookeeper内部原理

3.1 选举机制（面试重点）

半数机制：集群中半数以上机器存活，集群可用。所以Zookeeper适合安装奇数台服务器
虽然在配置文件中并没有指定Master和Slave。但是，Zookeeper工作时，是有一个节点为Leader，其他则为Follower，Leader是通过内部的选举机制临时产生的

1. Server1先投票，投给自己，自己为1票，没有超过半数，根本无法成为leader，顺水推舟将票数投给了id比自己大的Server2
2. Server2也把自己的票数投给了自己，再加上Server1给的票数，总票数为2票，没有超过半数，也无法成为leader，也学习Server1，顺水推舟，将自己所有的票数给了id比自己大的Server3
3. Server3得到了Server1和Server2的两票，再加上自己投给自己的一票。3票超过半数，顺利成为leader
4. Server4和Server5都投给自己，但是无法改变Server3的票数，只好听天由命，承认Server3是leader

3.2 节点类型

持久型（persistent）：
- 持久化目录节点（persistent）客户端与zookeeper断开连接后，该节点依旧存在
- 持久化顺序编号目录节点（persistent_sequential）客户端与zookeeper断开连接后，该节点依旧存在，创建znode时设置顺序标识，znode名称后会附加一个值，顺序号是一个单调递增的计数器，由父节点维护，例如：Znode001，Znode002...
短暂型（ephemeral）：
- 临时目录节点（ephemeral）客户端和服务器端断开连接后，创建的节点自动删除
- 临时顺序编号目录节点（ephemeral_sequential）客户端与zookeeper断开连接后，该节点被删除，创建znode时设置顺序标识，znode名称后会附加一个值，顺序号是一个单调递增的计数器，由父节点维护，例如：Znode001，Znode002...
注意：序号是相当于i++，和数据库中的自增长类似

3.3 监听器原理（面试重点）

1. 在main方法中创建Zookeeper客户端的同时就会创建两个线程，一个负责网络连接通信，一个负责监听
2. 监听事件就会通过网络通信发送给zookeeper
3. zookeeper获得注册的监听事件后，立刻将监听事件添加到监听列表里
4. zookeeper监听到数据变化或路径变化，就会将这个消息发送给监听线程
- 常见的监听
  - 1. 监听节点数据的变化：get path [watch]
  - 2. 监听子节点增减的变化：ls path [watch]
5. 监听线程就会在内部调用process方法（需要我们实现process方法内容）