ZooKeeper基础

最新推荐文章于 2024-07-19 17:45:42 发布

正橙橙橙橙

最新推荐文章于 2024-07-19 17:45:42 发布

阅读量120

点赞数

分类专栏： Hadoop入门文章标签： zookeeper 分布式

本文链接：https://blog.csdn.net/Chengzheng119/article/details/120889350

版权

Hadoop入门专栏收录该内容

13 篇文章 1 订阅

订阅专栏

在我们的多线程学习中，一个主机有多个线程。若这些线程共享了一个资源。那么我们为了保证一致性问题，我们使用了锁的机制。只有拿到锁的线程，才能够访问该共享资源，进行读或写的操作。

那么，在我们的hadoop集群里，我们类比多线程。多线程是单主机，多线程，而在集群中，我们是多主机向同一共享资源进行访问。那么我们就需要一个叫分布式锁的东西，来保证被集群（多主机）访问的共享资源的数据一致性问题。

而我们的Zookeeper就能完成这样的功能。

Zookeeper的特点

本质上是一个分布式文件系统，类似于数据库。

Zookeeper里有很多节点，称为Znode。 Znode是有路径的。同时Znode可以有子节点，并且每个Znode都可以存储数据。

其实可以将Znode理解为一个正常的节点路径为Node的Name ，子节点就是Node left和Node right ，存储的数据就是节点的其他参数。

Zookeeper的架构

Zookeeper集群是一个基于主从架构的高可用集群。

在Zookeeper集群里，分别有Leader 、Follower 、Observer的角色

Leader：一个Zookeeper集群中同一时间只会有一个实际工作的Leader，它会发起并维护Follower及Observer间的心跳。所有的写操作必须要通过Leader完成再由Leader将写操作广播给其他服务器。

Follower：一个集群可以有多个Follower，它会响应Leader的心跳。Follower可直接处理并返回客户端的读请求，如果有写的请求，那么Follower会将其转发给Leader进行处理。并且负责在Leader处理写请求时，对请求进行投票（？）

Observer：角色与Follower类似，但是没有投票权。

Zookeeper的应用场景

数据发布/订阅系统

需要发布者将数据发布到Zookeeper的节点上，供订阅者进行数据订阅，进而达到动态获取数据的目的，实现配置信息的集中式管理和数据的动态更新，

发布/订阅一般有两种设计模式：推模式和拉模式，服务端主动将数据更新发送给所有订阅的客户端称为推模式；客户端主动请求获取最新数据称为拉模式。

Zookeeper采取了推拉相结合的模式，客户端向服务端注册自己需要关注的节点，一旦该节点数据发生变更，俺么服务端就会向相应的客户端推送Watcher事件通知，客户端接收到此通知后，主动到服务端获取最新的数据。

命名服务

命名服务是分布实现系统中较为常见的一类场景，分布式系统中，被命名的实体通常可以是集群中的及其、提供的服务地址或远程对象等，通过命名服务，客户端可以根据指定名字来获取资源的实体，在分布式环境中，上层应用仅仅需要一个全局唯一的名字。Zookeeper可以实现一套分布式全局唯一ID的分配机制。

分布式协调/通知

心跳检测、工作进度汇报和系统调度。

心跳检测，即不同机器之间检测到彼此是否还在正常运行。当一个集群连接Zookeeper时，Zookeeper会给每一台机器创建一个临时节点。这些临时节点用于心跳检测。即在每隔一段时间，机器会给Zookeeper传输一个数据包，用于检测心跳。如果该机器宕机，那么该临时节点会马上消失，其他机器也可以根据该临时节点是否存在，来判断对应的客户端机器是否存活。通过Zookeeper可以大大介绍系统耦合。

工作进度汇报，将任务分配给不同机器时，同样为机器创建临时节点。可以通过Zookeeper中的临时节点，去了解到不同机器的工作进度情况。

系统调度，即使用Zookeeper作为用户客户端和系统控制台的一个中台。后台管理人员在控制台上进行一些操作，实际上就是修改Zookeeper的节点数据，之后Zookeeper就会把数据变更以时间通知的形式发送给订阅了该节点的客户端。

分布式锁

排它锁又称为写锁或者独占锁。（类比于Synchronized锁）只能一个事务对数据进行读取和更新，其他事务都不能对数据进行操作。

共享锁又称为读锁

若事务T1对数据对象O1加上共享锁，那么当前事务只能对O1进行读取操作，其他事务也只能对这个数据对象加共享锁，直到该数据对象的所有共享锁都被释放，才能施加排它锁。

分布式队列

分布式环境下，我们需要一个单进程队列的组件，用来实现跨进程、跨主机、跨网络的数据共享和数据传递，这就是分布式队列。

Zookeeper的选举机制

Leader选举是保证分布式数据一致性的关键（？）因为只有Leader才能完成写操作。

服务器启动时期的Leader选举

若进行Leader选举，则至少需要两台机器，这里选取3台机器组成的服务器集群为例。在初始化阶段，机器开始互相通信，尝试找到Leader。

选举过程如下：

（1）每个server发出一个投票由于是初始情况，每次投票会包含所推举的服务器的myid和ZXID，使用（myid-服务器编号，ZXID-事务的编号（越大，数据越新））来表示，此时Server1的投票为（1,0），Server2的投票为（2,0），然后各自将这个投票发给集群中其他机器。

（2）接受来自各个服务器的投票集群的每个服务器收到投票后，首先判断该投票的有效性，如检查是否是本轮投票，是否来自LOOKING状态的服务器。

（3）处理投票先检查ZXID，越大越优先作为Leader（ZXID投票要过半）

如果ZXID相同，那么就比较myid。myid较大的服务器作为Leader服务器。

对于Server1而言，它的投票是（1,0），接收Server2的投票（2,0），首先会比较两者的ZXID，均为0，再比较myid，此时Server2的myid最大，于是更新自己的投票为（2,0），然后重新投票。即此时Server1，投出了（2,0）。对于Server2而言，其无须更新自己的投票，只是再次向集群中的所有机器发出上一次投票信息即可。

（4）统计投票统计投票，投票最多的若大于了半数，那么确定Leader

（5）变更服务器状态一旦确定了Leader，每个服务器就会更新自己的状态，Follower变更为Following，Leader变更为Leading。后续只要Leader不宕机，那么后加入的机器就会都是Follower。

服务器运行时期的Leader选举

在Zookeeper运行期间，如果Leader宕机了，我们此时需要重新选举一个Leader。与第一种选举方式一致。

安装Zookeeper。按照网上的步骤安装，记得修改cfg 。将dataDir指向你想要存放日志和数据的位置。同时将Zookeeper的集群安排好。注意！！！！关掉Linux防火墙！关掉Linux防火墙！关掉Linux防火墙！关掉Linux防火墙！关掉Linux防火墙！关掉Linux防火墙！关掉Linux防火墙！否则会安装好了，在开启zkServer.sh 时，开启成功，但是查看status，会发现Contact Error。下附cfg文件。

# The number of milliseconds of each tick
tickTime=2000
# The number of ticks that the initial
# synchronization phase can take
initLimit=10
# The number of ticks that can pass between
# sending a request and getting an acknowledgement
syncLimit=5
# the directory where the snapshot is stored.
# do not use /tmp for storage, /tmp here is just
# example sakes.
dataDir=/export/servers/zookeeper-3.4.10/zkdatas
# the port at which the clients will connect
clientPort=2181
# the maximum number of client connections.
# increase this if you need to handle more clients
#maxClientCnxns=60
#
# Be sure to read the maintenance section of the
# administrator guide before turning on autopurge.
#
# http://zookeeper.apache.org/doc/current/zookeeperAdmin.html#sc_maintenance
#
# The number of snapshots to retain in dataDir
#autopurge.snapRetainCount=3
# Purge task interval in hours
# Set to "0" to disable auto purge feature
#autopurge.purgeInterval=1

server.1=Hadoop-1:2888:3888
server.2=Hadoop-2:2888:3888
server.3=Hadoop-3:2888:3888

Znode的一些特点。

Zookeeper的结构也为树结构，和文件系统的结构目录相似。每个节点都可以拥有子节点。但是也有不同之处。

1.Znode兼具文件和目录两种特点。

2.Znode存储数据大小有限制

3.Znode通过路径引用。

Znode包含三个部分： stat 状态信息 data 与Znode关联的数据 children该Znode下的子节点。

Znode的节点类型：

1.临时节点：节点的创建依赖于Zookeeper的客户端与服务器的会话。会话结束，则自动删除。注意：临时节点不允许拥有子节点。

2.永久节点：该节点的生命周期不依赖于会话，只有在客户端显示执行删除操作的时候，他们才能被删除。

节点的序列化。如果创建的时候指定的话，Znode名字后面会自动追加一个不断增加的序列号。序列号对于父节点是唯一的。父节点可以通过序列号，查看子节点创建的先后顺序。

正橙橙橙橙

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ZooKeeper基础

在我们的多线程学习中，一个主机有多个线程。若这些线程共享了一个资源。那么我们为了保证一致性问题，我们使用了锁的机制。只有拿到锁的线程，才能够访问该共享资源，进行读或写的操作。那么，在我们的hadoop集群里，我们类比多线程。多线程是单主机，多线程，而在集群中，我们是多主机向同一共享资源进行访问。那么我们就需要一个叫分布式锁的东西，来保证被集群（多主机）访问的共享资源的数据一致性问题。而我们的Zookeeper就能完成这样的功能。Zookeeper的特点...
复制链接

扫一扫