大数据学习(三)zookeeper配置
概述
Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。(什么?你说看不懂。我也看不懂 那么往下看吧)
Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应。
特点
- zookeeper是由一个领导者(Leader)和多个跟随者组成的集群
- 集群中只要有半数以上节点存活,zookeeper集群就能正常服务
- 全局数据一致:每个server保存一份相同的数据副本,client无论连接到哪个server,数据都是一致的
- 更新请求顺序进行:来自同一个client的更新请求按其发送顺序依次执行
- 数据更新原子性,一次数据更新要么成功,要么失败
- 实时性,在一定时间范围内,client能读到最新数据
数据结构
zookeeper数据模型的结构与Unix文件系统很类似,整体上可以看做是一棵树,每个节点称作一个znode。每一个znode默认能够存储1MB的数据,每个znode都可以通过其路径唯一标识
选举机制
- 半数机制:集群中半数以上机器存活,集群可用。所以Zookeeper适合安装奇数台服务器。
- Zookeeper虽然在配置文件中并没有指定Master和Slave。但是,Zookeeper工作时,是有一个节点为Leader,其他则为Follower,Leader是通过内部的选举机制临时产生的。
- 以一个简单的例子来说明整个选举的过程。
假设有五台服务器组成的Zookeeper集群,它们的id从1-5,同时它们都是最新启动的,也就是没有历史数据,在存放数据量这一点上,都是一样的。假设这些服务器依序启动,来看看会发生什么,如图5-8所示。
(1)服务器1启动,此时只有它一台服务器启动了,它发出去的报文没有任何响应,所以它的选举状态一直是LOOKING状态。
(2)服务器2启动,它与最开始启动的服务器1进行通信,互相交换自己的选举结果,由于两者都没有历史数据,所以id值较大的服务器2胜出,但是由于没有达到超过半数以上的服务器都同意选举它(这个例子中的半数以上是3),所以服务器1、2还是继续保持LOOKING状态。
(3)服务器3启动,根据前面的理论分析,服务器3成为服务器1、2、3中的老大,而与上面不同的是,此时有三台服务器选举了它,所以它成为了这次选举的Leader。
(4)服务器4启动,根据前面的分析,理论上服务器4应该是服务器1、2、3、4中最大的,但是由于前面已经有半数以上的服务器选举了服务器3,所以它只能接收当小弟的命了。
(5)服务器5启动,同4一样当小弟。
节点类型
- 持久化目录节点:客户端与zookeeper断开连接后,该节点依旧存在
- 持久化顺序编号目录节点:客户端与zookeeper断开连接后,该节点依旧存在,只是zookeeper给该节点名称进行顺序编号
- 临时目录节点:客户端与zookeeper断开连接后,该节点被删除
- 临时顺序编号目录节点:客户端与zookeeper断开连接后,该节点被删除,只是zookeeper给该节点名称进行顺序编号
安装配置zookeeper
解压
tar -zxvf zookeeper-3.4.5.tar.gz -C /opt/module
cd ../module/
mv zookeeper-3.4.5/ zookeeper
配置
# 配置环境变量
vi /etc/profile
# ZK_HOME
export ZK_HOME=/opt/module/zookeeper
export PATH=$PATH:$ZK_HOME/bin
最后别忘source /etc/profile
进入zookeeper安装目录
cd ./conf # 配置文件
cp zoo_sample.cfg zoo.cfg
配置zoo.cfg
dataDir=/opt/module/zookeeper/zkData
server.1=master:2888:3888
server.2=slave1:2888:3888
server.3=slave2:2888:3888
创建zkData目录mkdir zkData
cd zkData
touch myid
echo 1 >> myid
将zookeeper安装目录分发到另外两个节点
scp -r /opt/module/zookeeper slave1:/opt/module
scp -r /opt/module/zookeeper slave2:/opt/module
scp /etc/profile slave1:/etc
scp /etc/profile slave2:/etc
分别修改slave1和slave2中myid的值为2,3
启动
在三个节点上分别执行启动命令zkServer.sh start
并查看状态zkServer.sh start
,正常情况应该有一个leader,其他都是follower
命令行操作
命令 | 描述 |
---|---|
help | 显示所有操作命令 |
ls path [watch] | 使用 ls 命令来查看当前znode中所包含的内容 |
ls2 path [watch] | 查看当前节点数据并能看到更新次数等数据 |
create | 普通创建 -s 含有序列 -e 临时(重启或者超时消失) |
get path [watch] | 获得节点的值 |
set | 设置节点的具体值 |
stat | 查看节点状态 |
delete | 删除节点 |
rmr | 递归删除节点 |
# 启动客户端
zkCli.sh
# 显示所有操作命令
help
# 查看当前znode中所包含的内容
ls /
# 查看当前节点详细数据
ls2 /
# 创建一个普通节点
create /hadoop "hadoop"
# 获得节点的值
get /hadoop
# 创建临时节点
create -e /spark "spark"
# 修改节点的值
set /hadoop "HADOOP"
API操作
创建一个maven项目
添加pom依赖
<dependencies>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>4.13.2</version>
<scope>test</scope>
</dependency>
<dependency>
<groupId>org.apache.zookeeper</groupId>
<artifactId>zookeeper</artifactId>
<version>3.4.5</version>
</dependency>
</dependencies>
创建zookeeper客户端
public class zkTest {
private String connectString="master:2181,slave1:2181,slave2:2181";
private int sessionTimeout=2000;
private ZooKeeper zk;
@Before
public void zkInit() throws IOException {
zk=new ZooKeeper(connectString, sessionTimeout, new Watcher() {
@Override
public void process(WatchedEvent watchedEvent) {
}
});
}
}
创建子节点
@Test
public void create() throws Exception {
// 参数1:要创建的节点的路径; 参数2:节点数据 ; 参数3:节点权限 ;参数4:节点的类型
String nodeCreated = zk.create("/atguigu", "jinlian".getBytes(), Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT);
}
判断znode是否存在
@Test
public void exist() throws Exception {
Stat stat = zk.exists("/eclipse", false);
System.out.println(stat == null ? "not exist" : "exist");
}