ZooKeeper是什么?
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase,Flink的重要组件。中文名:动物管理员
它是一个为分布式应用提供一致性服务的软件。
ZooKeeper提供的功能包括:
配置维护、域名服务、分布式同步、组服务等。zookeeper简化了分布式应用的 管理和部署,开发人员只需要专注于业务的开发,而不用担心应用服务的分布式特性。
Apache ZooKeeper致力于开发和维护开源服务器,以实现高度可靠的分布式协调服务。
ZooKeeper网址:
官网地址: http://ZooKeeper.apache.org/
官网快速开始地址: Because Coordinating Distributed Systems is a Zoo
官网API地址: http://ZooKeeper.apache.org/doc/r3.4.10/api/index.html
ZooKeeper典型应用场景
- 提供的服务包括:统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡等。
命名服务
- 在分布式环境下,经常需要对应用/服务进行统一命名,便于识别。
统一配置管理
- 在分布式环境下,配置文件同步很常见。
- 要求在一个集群中,所有节点的配置信息是一致的,对配置文件修改后,能够快速同步 到各个节点上。
- 配置文件内容可以给zookeeper进行管理,将配置信息写到znode,然后通过客户端监听 znode
集群管理
- Zookeeper可以实现实时监控节点的状态变化
- NameNode的HA机制就是基于Zookeeper来实现的
- HBase的HA也是基于Zookeeper
- Flink里面的心跳检车也用到Zookeeper
分布式锁
有了 ZooKeeper 的一致性文件系统,锁的问题变得容易。锁服务可以分为两三类
一个是写锁,对写加锁,保持独占,或者叫做排它锁,独占锁
一个是读锁,对读加锁,可共享访问,释放锁之后才可进行事务操作,也叫共享锁
一个是控制时序,叫时序锁
对于第一类,我们将 ZooKeeper 上的一个znode看作是一把锁,通过 createznode() 的方式来实 现。所有客户端都去创建 /distribute_lock 节点,最终成功创建的那个客户端也即拥有了这把 锁。用完删除掉自己创建的 /distribute_lock 节点就释放出锁。
对于第二类,/distribute_lock 已经预先存在,所有客户端在它下面创建临时顺序编号目录节 点,和选 Master 一样,编号最小的获得锁,用完删除,依次有序。
队列管理
- 两种类型的队列:
1、同步队列:当一个队列的成员都聚齐时,这个队列才可用,否则一直等待所有成员到
达。
2、先进先出队列:队列按照 FIFO 方式进行入队和出队操作。 - 第一类,在约定目录下创建临时目录节点,监听节点数目是否是我们要求的数目。
- 第二类,和分布式锁服务中的控制时序场景基本原理一致,入列有编号,出列按编号。
- 缺点:zookeeper不太适合存储大量的数据和支持高频的数据读写。
- kafka0.8版本版本之前offset是保存在zookeeper的,0.8以上的版本是保存在kafka自己的topic(__consumer)
ZooKeeper集群安装
下载地址
下载地址:http://mirrors.hust.edu.cn/apache/zookeeper/
版本号:zookeeper-3.4.14.tar.gz
解压缩安装到自己的安装目录
命令:tar -zxvf zookeeper-3.4.14.tar.gz -C ../install/
修改配置文件【集群参数配置】
第一步:复制配置文件:
cp zoo_sample.cfg zoo.cfg
vi zoo.cfg
第二步:修改配置文件
tickTime=2000
initLimit=10
syncLimit=5
dataDir=/root/install/zookeeper-3.4.14/data
dataLogDir=/root/install/zookeeper-3.4.14/log
clientPort=2181
server.1=hadoop1:2888:3888
server.2=hadoop2:2888:3888
server.3=hadoop3:2888:3888
第三步:分发安装包到其他节点
scp -r zookeeper-3.4.14/ hadoop2:/root/install/
scp -r zookeeper-3.4.14/ hadoop3:/root/install/
第四步:添加服务器id
在dataDir指定的数据目录里面新建一个文件,文件名叫myid,里面存放的内容就是服务器的server.id
hadoop1 echo 1 > myid
hadoop2 echo 2 > myid
hadoop3 echo 3 > myid