大数据开发教程——ZooKeeper分布式协调组件

比屋大数据

已于 2022-06-30 09:57:43 修改

阅读量370

点赞数

分类专栏：大数据架构师源码零基础教程文章标签：分布式 zookeeper big data

于 2022-06-14 10:29:34 首次发布

本文链接：https://blog.csdn.net/qq_42285599/article/details/125273188

版权

大数据架构师源码零基础教程专栏收录该内容

16 篇文章 4 订阅

订阅专栏

ZooKeeper是什么？

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase，Flink的重要组件。中文名：动物管理员
它是一个为分布式应用提供一致性服务的软件。

ZooKeeper提供的功能包括：

配置维护、域名服务、分布式同步、组服务等。zookeeper简化了分布式应用的管理和部署，开发人员只需要专注于业务的开发，而不用担心应用服务的分布式特性。
Apache ZooKeeper致力于开发和维护开源服务器，以实现高度可靠的分布式协调服务。

ZooKeeper网址：

官网地址： http://ZooKeeper.apache.org/
官网快速开始地址： Because Coordinating Distributed Systems is a Zoo
官网API地址： http://ZooKeeper.apache.org/doc/r3.4.10/api/index.html

ZooKeeper典型应用场景

提供的服务包括：统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡等。

命名服务

在分布式环境下，经常需要对应用/服务进行统一命名，便于识别。

统一配置管理

在分布式环境下，配置文件同步很常见。
要求在一个集群中，所有节点的配置信息是一致的，对配置文件修改后，能够快速同步到各个节点上。
配置文件内容可以给zookeeper进行管理，将配置信息写到znode，然后通过客户端监听 znode

集群管理

Zookeeper可以实现实时监控节点的状态变化
NameNode的HA机制就是基于Zookeeper来实现的
HBase的HA也是基于Zookeeper
Flink里面的心跳检车也用到Zookeeper

分布式锁

有了 ZooKeeper 的一致性文件系统，锁的问题变得容易。锁服务可以分为两三类
一个是写锁，对写加锁，保持独占，或者叫做排它锁，独占锁
一个是读锁，对读加锁，可共享访问，释放锁之后才可进行事务操作，也叫共享锁
一个是控制时序，叫时序锁
对于第一类，我们将 ZooKeeper 上的一个znode看作是一把锁，通过 createznode() 的方式来实现。所有客户端都去创建 /distribute_lock 节点，最终成功创建的那个客户端也即拥有了这把锁。用完删除掉自己创建的 /distribute_lock 节点就释放出锁。
对于第二类，/distribute_lock 已经预先存在，所有客户端在它下面创建临时顺序编号目录节点，和选 Master 一样，编号最小的获得锁，用完删除，依次有序。

队列管理

两种类型的队列：
1、同步队列：当一个队列的成员都聚齐时，这个队列才可用，否则一直等待所有成员到
达。
2、先进先出队列：队列按照 FIFO 方式进行入队和出队操作。
第一类，在约定目录下创建临时目录节点，监听节点数目是否是我们要求的数目。
第二类，和分布式锁服务中的控制时序场景基本原理一致，入列有编号，出列按编号。
缺点：zookeeper不太适合存储大量的数据和支持高频的数据读写。
kafka0.8版本版本之前offset是保存在zookeeper的，0.8以上的版本是保存在kafka自己的topic（__consumer）

ZooKeeper集群安装

下载地址

下载地址：http://mirrors.hust.edu.cn/apache/zookeeper/
版本号：zookeeper-3.4.14.tar.gz

解压缩安装到自己的安装目录

命令：tar -zxvf zookeeper-3.4.14.tar.gz -C ../install/

修改配置文件【集群参数配置】

第一步：复制配置文件：
cp zoo_sample.cfg zoo.cfg 
vi zoo.cfg
第二步：修改配置文件 
tickTime=2000 
initLimit=10 
syncLimit=5
dataDir=/root/install/zookeeper-3.4.14/data 
dataLogDir=/root/install/zookeeper-3.4.14/log 
clientPort=2181
server.1=hadoop1:2888:3888
server.2=hadoop2:2888:3888 
server.3=hadoop3:2888:3888
第三步：分发安装包到其他节点
scp -r zookeeper-3.4.14/ hadoop2:/root/install/ 
scp -r zookeeper-3.4.14/ hadoop3:/root/install/
第四步：添加服务器id
在dataDir指定的数据目录里面新建一个文件，文件名叫myid，里面存放的内容就是服务器的server.id
hadoop1 echo 1 > myid
hadoop2 echo 2 > myid
hadoop3 echo 3 > myid

免费获取就业指导/面试技巧/技术提升