大数据最新Zookeeper基础入门-1【集群搭建】,2024大数据开发大厂高频面试题

img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

zookeeper-3.5.7:https://archive.apache.org/dist/zookeeper/zookeeper-3.5.7/

1.6.1.Zookeeper下载

在这里插入图片描述
在这里插入图片描述

1.6.2.历史版本

在这里插入图片描述

1.6.3.下载Linux 环境安装的tar包

在这里插入图片描述

二、Zookeeper安装【Centos7】

2.1.环境要求

2.1.1.安装JDK

在这里插入图片描述

2.1.2.上传apache-zookeeper-3.5.7-bin.tar.gz 安装包到/opt/module目录下
mkdir -p /opt/module

cd /opt/module

2.1.3.解压到指定目录
tar -xzvf apache-zookeeper-3.5.7-bin.tar.gz -C /opt/module

2.1.4.修改文件夹名称
cd /opt/module

mv apache-zookeeper-3.5.7-bin zookeeper-3.5.7

2.2.配置修改

2.2.1.将zookeeper-3.5.7/conf 路径下的 zoo_sample.cfg 修改为 zoo.cfg
cd /opt/module/zookeeper-3.5.7/conf

cp zoo_sample.cfg zoo.cfg

2.2.2.修改zookeeper数据文件存放目录
vi /opt/module/zookeeper-3.5.7/conf/zoo.cfg

# 修改数据存储路径配置
dataDir=/opt/module/zookeeper-3.5.7/zkData

2.2.3.创建相关数据文件存放目录
mkdir -p /opt/module/zookeeper-3.5.7/zkData/{logs,data}

2.3.操作Zookeeper

2.3.1.添加到环境变量
vim /etc/profile

# zookeeper
export ZK\_HOME=/opt/module/zookeeper-3.5.7
export PATH=$PATH:$ZK\_HOME/bin

# 输入下面命令让设置的环境变量生效
source /etc/profile

2.3.2.启动Zookeeper
zkServer.sh start
zkServer.sh status
zkServer.sh stop
zkServer.sh restart
#以打印日志方式启动
zkServer.sh start-foreground

在这里插入图片描述

2.3.3.查看进程是否启动
# jps 是 Java Process Status Tool 的简称,它的作用是为了列出所有正在运行中的 Java 虚拟机进程
# 每一个 Java 程序在启动的时候都会为之创建一个Jvm 实例,通过jps可以查看这些进程的相关信息
# jps是Jdk提供的一个工具,它安装在 JAVA\_HOME/bin下

jps

jps -l

在这里插入图片描述

2.3.4.ZooKeeper服务端口为2181,查看服务已经启动
ps -aux | grep zookeeper

netstat -ant | grep 2181

在这里插入图片描述

2.3.5.查看状态
zkServer.sh status

在这里插入图片描述

2.3.6.启动客户端
zkCli.sh

2.3.7.退出客户端
quit

2.3.8.停止Zookeeper
zkServer.sh stop

2.3.9.查看数据文件存放目录zkData

在这里插入图片描述

2.4.配置参数解读

2.4.1.tickTime = 2000:通信心跳时间,Zookeeper服务器与客户端心跳时间,单位毫秒

在这里插入图片描述

2.4.2.initLimit = 10:LF初始通信时限

在这里插入图片描述

Leader和Follower初始连接时能容忍的最多心跳数(tickTime的数量)

2.4.3.syncLimit = 5:LF同步通信时限

在这里插入图片描述

Leader和Follower之间通信时间如果超过syncLimit * tickTime,Leader认为Follwer死掉,从服务器列表中删除Follwer。

2.4.4.dataDir:保存Zookeeper中的数据

注意:默认的tmp目录,容易被Linux系统定期删除,所以一般不用默认的tmp目录。

2.4.5.clientPort = 2181:客户端连接端口,通常不做修改

三、Zookeeper 集群操作

3.1.集群操作

在ZooKeeper集群服中务中有三个角色:

Leader 领导者

  1. 处理事务请求
  2. 集群内部各服务器的调度者

Follower 跟随者

  1. 处理客户端非事务请求,转发事务请求给Leader服务器
  2. 参与Leader选举投票

Observer 观察者

  1. 处理客户端非事务请求,转发事务请求给Leader服务器

在这里插入图片描述

3.1.1.集群安装
3.1.1.1.集群规划

在host128、host129 和host130 三个节点上都部署Zookeeper

思考:如果是 10 台服务器,需要部署多少台 Zookeeper?

3.1.1.2.解压安装
# 解压Zookeeper 安装包到/opt/module/目录下
tar -xzvf apache-zookeeper-3.5.7-bin.tar.gz -C /opt/module

cd /opt/module

# 修改apache-zookeeper-3.5.7-bin 名称为zookeeper-3.5.7
mv apache-zookeeper-3.5.7-bin zookeeper-3.5.7

3.1.1.3.配置服务器编号
3.1.1.3.1.创建相关数据文件存放目录 zkData
mkdir -p /opt/module/zookeeper-3.5.7/zkData/{logs,data}

3.1.1.3.2.创建一个 myid 的文件【!!!】
# 在文件中添加与server 对应的编号(注意:上下不要有空行,左右不要有空格)
echo 1 >/opt/module/zookeeper-3.5.7/zkData/myid

cat /opt/module/zookeeper-3.5.7/zkData/myid

3.1.1.3.3.拷贝配置好的 zookeeper 到其他机器上

xsync 集群同步工具,需要编辑集群分发脚本

xsync.sh zookeeper-3.5.7

并分别在host129、host130 上修改myid 文件中内容为 2、3

3.1.1.4.配置zoo.cfg文件
3.1.1.4.1.拷贝配置文件zoo_sample.cfg 为zoo.cfg
cd /opt/module/zookeeper-3.5.7/conf

# 拷贝配置文件 zoo_sample.cfg 为zoo.cfg
cp zoo_sample.cfg zoo.cfg

3.1.1.4.2.修改zookeeper配置文件zoo.cfg【!!!】
vi /opt/module/zookeeper-3.5.7/conf/zoo.cfg

# 修改数据存储路径配置
dataDir=/opt/module/zookeeper-3.5.7/zkData

# 增加如下配置
#######################cluster##########################
server.1=192.168.147.128:2888:3888
server.2=192.168.147.129:2888:3888
server.3=192.168.147.130:2888:3888

3.1.1.4.3.配置参数解读【!!!】
# tickTime这个时间是作为zookeeper服务器之间或客户端与服务器之间维持心跳的时间间隔为2ms,也就是说每隔tickTime时间就会发送一个心跳。
tickTime=2000

# initLimit这个配置项是用来配置zookeeper接受客户端
# (这里所说的客户端不是用户连接zookeeper服务器的客户端,而是zookeeper服务器集群中连接到leader的follower 服务器)
# 初始化连接时最长能忍受多少个心跳时间间隔数。当初始化连接时间超过该值,则表示连接失败。
# 当已经超过10个心跳的时间(也就是tickTime)长度后 zookeeper 服务器还没有收到客户端的返回信息,那么表明这个客户端连接失败。
# 对于从节点最初连接到主节点时的超时时间,单位为tick值的倍数。总的时间长度就是 10\*2000。即20ms
initLimit=10

# syncLimit这个配置项标识leader与follower之间发送消息,请求和应答时间长度,最长不能超过多少个tickTime的时间长度
# 如果follower在设置时间内不能与leader通信,那么此follower将会被丢弃。
# 对于主节点与从节点进行同步操作时的超时时间,单位为tick值的倍数。总的时间长度就是5\*2000。即10ms
syncLimit=5

# dataDir就是zookeeper保存数据库数据快照的位置,默认情况下zookeeper将写数据的日志文件也保存在这个目录里
# 注意:不能使用 /tmp 路径,会被定期清除。使用专用的存储设备能够大大提高系统的性能
# dataDir=/tmp/zookeeper
dataLogDir=/opt/module/zookeeper-3.5.7/zkData/logs
# 数据文件存放目录
dataDir=/opt/module/zookeeper-3.5.7/zkData

# clientPort这个端口就是客户端连接Zookeeper服务器的端口,Zookeeper会监听这个端口接受客户端的访问请求
clientPort=2181

# 客户端最大链接数
maxClientCnxns=60

# zookeeper在运行过程中会生成快照数据,默认不会自动清理,会持续占用硬盘空间
# 保存3个快照,即3个日志文件
autopurge.snapRetainCount=3
# 间隔1个小时执行一次清理
autopurge.purgeInterval=1

# server.A=B:C:D
# 其中A是一个数字,表示这个是第几号服务器
# 集群模式下配置一个文件myid,这个文件在dataDir 目录下,这个文件里面有一个数据就是 A 的值
# Zookeeper 启动时读取此文件,拿到里面的数据与zoo.cfg 里面的配置信息比较从而判断到底是哪个server。 
# echo 1 >/opt/module/zookeeper-3.5.7/zkData/myid
# B是这个服务器的IP地址
# C第一个端口用来集群成员的信息交换,表示这个服务器Follower与集群中的Leader服务器交换信息的端口
# D标识假如集群中的 Leader 服务器挂了,需要一个端口来重新进行选举,选出一个新的Leader,而这个端口就是用来执行选举时服务器相互通信的端口
# 服务器=运行主机:心跳端口:选举端口
# zk集群
# 3888后面位置不能有空格,否则Address unresolved: 192.168.147.128:3888
#######################cluster##########################
server.1=192.168.147.128:2888:3888
server.2=192.168.147.129:2888:3888
server.3=192.168.147.130:2888:3888

3.1.1.4.4.同步zoo.cfg 配置文件
cd /opt/module/zookeeper-3.5.7/conf

xsync.sh zoo.cfg

3.1.1.4.5.修改zkEnv.sh文件并同步,配置java环境变量

不修改容易报错:JAVA_HOME is not set and java could not be found in PATH.

vi /opt/module/zookeeper-3.5.7/bin/zkEnv.sh

#添加
JAVA\_HOME="/usr/java/jdk1.8"

xsync.sh zkEnv.sh

在这里插入图片描述
在这里插入图片描述

3.1.1.5.集群操作
3.1.1.5.1.分别启动Zookeeper
zkServer.sh start
zkServer.sh status
zkServer.sh stop
zkServer.sh restart
#以打印日志方式启动
zkServer.sh start-foreground

3.1.1.5.2.查看状态

在这里插入图片描述

3.1.2.选举机制(面试重点)
3.1.2.1.Zookeeper选举机制——第一次启动

在这里插入图片描述
(1)服务器1启动,发起一次选举。服务器1投自己一票。此时服务器1票数一票,不够半数以上(3票),选举无法完成,服务器1状态保持为LOOKING

(2)服务器2启动,再发起一次选举。服务器1和2分别投自己一票并交换选票信息:此时服务器1发现服务器2的myid比自己目前投票推举的(服务器1)大,更改选票为推举服务器2。此时服务器1票数0票,服务器2票数2票,没有半数以上结果,选举无法完成,服务器1,2状态保持LOOKING

(3)服务器3启动,发起一次选举。此时服务器1和2都会更改选票为服务器3。此次投票结果:服务器1为0票,服务器2为0票,服务器3为3票。此时服务器3的票数已经超过半数,服务器3当选Leader服务器1,2更改状态为FOLLOWING服务器3更改状态为LEADING

(4)服务器4启动,发起一次选举。此时服务器1,2,3已经不是LOOKING状态,不会更改选票信息。交换选票信息结果:服务器3为3票,服务器4为1票。此时服务器4服从多数,更改选票信息为服务器3,并更改状态为FOLLOWING

(5)服务器5启动,同4一样当小弟。

名词简介含义
SID服务器ID用来唯一标识一台ZooKeeper集群中的机器,每台机器不能重复,和myid一致
ZXID事务IDZXID是一个事务ID,用来标识一次服务器状态的变更。在某一时刻,集群中的每台机器的ZXID值不一定完全一致,这和ZooKeeper服务器对于客户端“更新请求”的处理逻辑有关。
Epoch每个Leader任期的代号没有Leader时同一轮投票过程中的逻辑时钟值是相同的。每投完一次票这个数据就会增加
3.1.2.2.Zookeeper选举机制——非第一次启动

在这里插入图片描述
(1)当zookeeper集群中的一台服务器出现以下两种情况之一时,就会开始进入Leader选举:

  • 服务器初始化启动
  • 服务器运行期间无法和leader保持连接

(2)而当一台机器进入Leader选举流程时,当前集群也可能会处于以下两种状态:

  • 集群中本来就已经存在一个Leader
    对于这种已经存在Leader的情况,机器试图去选举Leader时,会被告知当前服务器的Leader信息,对于该机器来说,仅仅需要和Leader机器建立连接,并进行状态同步即可。
  • 集群中确实不存在Leader(重点)
    假设ZooKeeper由5台服务器组成,SID分别为12、3、4、5,ZXID分别为88、8、7、7,并且此时SID为3的服务器是Leader。某一时刻,3和5服务器出现故障,因此开始进行Leader选举。最后选了服务器2。

在这里插入图片描述

3.1.3.ZK 集群启动停止脚本
3.1.3.1.在host128 创建脚本
vim /usr/bin/zk.sh

3.1.3.2.脚本内容
#!/bin/bash
# 定义一个数组
arr=(host128 host129 host130)

case $1 in
"start"){
	for i in ${arr[@]}
	do
 		echo ---------- zookeeper $i 启动 ------------
		ssh $i "bash /opt/module/zookeeper-3.5.7/bin/zkServer.sh start"
	done
};;
"stop"){
	for i in ${arr[@]}
	do
 		echo ---------- zookeeper $i 停止 ------------ 
		ssh $i "bash /opt/module/zookeeper-3.5.7/bin/zkServer.sh stop"
	done
};;
"status"){
	for i in ${arr[@]}
	do
 		echo ---------- zookeeper $i 状态 ------------ 
		ssh $i "bash /opt/module/zookeeper-3.5.7/bin/zkServer.sh status"
	done
};;
esac

3.1.3.3.增加脚本执行权限
# u代表所有者user;x代表执行权限;+ 表示增加权限
chmod u+x /usr/bin/zk.sh

3.1.3.4.Zookeeper 集群启动
zk.sh start

在这里插入图片描述

3.1.3.5.Zookeeper 集群状态
zk.sh status

在这里插入图片描述

3.1.3.6.Zookeeper 集群停止
zk.sh stop

在这里插入图片描述

3.1.4.显示集群的所有java进程状态jpsall 脚本
3.1.4.1.在host128 创建脚本
vim /usr/bin/jpsall

3.1.4.2.脚本内容
#!/bin/bash
# 该脚本是用来显示集群的所有java进程状态
# 定义一个数组
list="host128 host129 host130"
JAVA\_HOME="/usr/java/jdk1.8"

echo "显示集群的所有java进程状态"
for node in $list
do
        echo =============== $node ===============
        ssh $node $JAVA\_HOME'/bin/jps'
done
echo "执行结束"

3.1.4.3.增加脚本执行权限
# u代表所有者user;x代表执行权限;+ 表示增加权限
chmod u+x /usr/bin/jpsall

3.1.4.4.执行脚本
jpsall

在这里插入图片描述

3.2. 客户端命令行操作

3.2.1.命令行基本语法
命令基本语法功能描述
help显示所有操作的命令
ls path使用 ls 命令来查看当前 znode 的子节点 [可监听] -w 监听子节点变化 -s 附加次级信息
create普通创建-s 含有序列-e 临时(重启或者超时消失)
get path获得节点的值 [可监听] -w 监听节点内容变化 -s 附加次级信息
set设置节点的具体值
stat查看节点状态
delete删除节点
deleteall递归删除节点
3.2.1.1.启动客户端
cd /opt/module/zookeeper-3.5.7

# 指定启动host128的客户端,而不是localhost的
bin/zkCli.sh -server host128:2181

3.2.1.2.显示所有的操作命令
help

3.2.2.znode 节点数据信息
3.2.2.1.查看当前znode中所包含的内容
ls /

[zk: host128:2181(CONNECTED) 0] ls /
[zookeeper]

3.2.2.2.查看当前节点详细数据
ls -s /

[zk: host128:2181(CONNECTED) 1] ls -s /
[zookeeper]cZxid = 0x0
ctime = Thu Jan 01 08:00:00 CST 1970
mZxid = 0x0
mtime = Thu Jan 01 08:00:00 CST 1970
pZxid = 0x0
cversion = -1
dataVersion = 0
aclVersion = 0
ephemeralOwner = 0x0
dataLength = 0
numChildren = 1

创建节点的事务 zxid:每次修改 ZooKeeper 状态都会产生一个 ZooKeeper 事务 ID。
事务 ID 是 ZooKeeper 中所有修改总的次序。
每次修改都有唯一的 zxid,如果 zxid1 小于 zxid2,那么 zxid1 在 zxid2 之前发生。

czxid创建节点的事务 zxid(create zxid)
ctimeznode 被创建的毫秒数(从 1970 年开始)
mzxidznode 最后更新的事务 zxid
mtimeznode 最后修改的毫秒数(从 1970 年开始)
pZxidznode 最后更新的子节点 zxid
cversionznode 子节点变化号,znode 子节点修改次数
dataversionznode 数据变化号
aclVersionznode 访问控制列表的变化号
ephemeralOwner如果是临时节点,这个是 znode 拥有者的 session id。如果不是临时节点则是 0。
dataLengthznode 的数据长度
numChildrenznode 子节点数量
3.2.3.节点类型(持久/短暂/有序号/无序号)
  • 持久(Persistent):客户端和服务器端断开连接后,创建的节点不删除
  • 短暂(Ephemeral):客户端和服务器端断开连接后,创建的节点自己删除

在这里插入图片描述
说明:创建znode时设置顺序标识,znode名称后会附加一个值,顺序号是一个单调递增的计数器,由父节点维护

注意:在分布式系统中,顺序号可以被用于为所有的事件进行全局排序,这样客户端可以通过顺序号推断事件的顺序

3.2.3.1.分别创建2个普通节点(永久节点 + 不带序号)
create /sanguo "xishi"

create /sanguo/shuguo "adou"

[zk: host128:2181(CONNECTED) 2] create /sanguo "xishi"
Created /sanguo
[zk: host128:2181(CONNECTED) 3] create /sanguo/shuguo "adou"
Created /sanguo/shuguo
## 注意:创建节点时,要赋值

3.2.3.2.获得节点的值
get -s /sanguo

get -s /sanguo/shuguo



![img](https://img-blog.csdnimg.cn/img_convert/ce5d2874ea78c4d6ae10075e965c668a.png)
![img](https://img-blog.csdnimg.cn/img_convert/5cce00c2e83fae30fbd84ab2db6bf2a1.png)
![img](https://img-blog.csdnimg.cn/img_convert/ec2334c20b424dcb62f029b6a111ad9d.png)

**既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!**

**由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新**

**[需要这份系统化资料的朋友,可以戳这里获取](https://bbs.csdn.net/topics/618545628)**

618a.png)  
 说明:创建znode时设置顺序标识,znode名称后会附加一个值,顺序号是一个单调递增的计数器,由父节点维护


`注意:在分布式系统中,顺序号可以被用于为所有的事件进行全局排序,这样客户端可以通过顺序号推断事件的顺序`


##### 3.2.3.1.分别创建2个普通节点(永久节点 + 不带序号)



create /sanguo “xishi”

create /sanguo/shuguo “adou”



[zk: host128:2181(CONNECTED) 2] create /sanguo “xishi”
Created /sanguo
[zk: host128:2181(CONNECTED) 3] create /sanguo/shuguo “adou”
Created /sanguo/shuguo

注意:创建节点时,要赋值


##### 3.2.3.2.获得节点的值



get -s /sanguo

get -s /sanguo/shuguo



[外链图片转存中…(img-kpi60Gdz-1715769289424)]
[外链图片转存中…(img-rFRFpFXg-1715769289425)]
[外链图片转存中…(img-wQBTwlX9-1715769289425)]

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

  • 5
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值