大数据开发：关于Zookeeper的几个核心知识点

最新推荐文章于 2024-10-04 18:47:42 发布

李旭me

最新推荐文章于 2024-10-04 18:47:42 发布

阅读量225

点赞数

文章标签：大数据 hadoop spark kafka flink

本文链接：https://blog.csdn.net/dashujujiagoushi/article/details/105512316

版权

ZooKeeper作为一个分布式协调器，解决了分布式应用的局部故障问题，常用于分布式协调、元数据管理、高可用和分布式锁场景。其采用过半写成功策略保证数据一致性，通过ZAB协议实现崩溃恢复机制。ZooKeeper集群包含leader、follower和observer角色，以实现高效率和高可用。在大数据项目如HDFS、Kafka中，ZooKeeper起到了关键的支撑作用。

摘要由CSDN通过智能技术生成

为什么会有ZooKeeper

我们知道要写一个分布式应用是非常困难的，主要原因就是局部故障。一个消息通过网络在两个节点之间传递时，网络如果发生故障，发送方并不知道接收方是否接收到了这个消息。有可能是收到消息以后发生了网络故障，也有可能是没有收到消息，又或者可能接收方的进程死了。发送方唯一的确认方法就是再次连接发送消息，并向他进行询问。这就是局部故障：根本不知道操作是否失败。因此，大部分分布式应用需要一个主控、协调控制器来管理物理分布的子进程。所以大部分应用需要开发私有的协调程序，协调程序的反复编写浪费时间，这个时候就需要一个通用的、伸缩性好的协调器。就是因为这样的场景，ZooKeeper应运而生，ZooKeeper的设计目的，就是为了减轻分布式应用程序所承担的协调任务。

ZooKeeper常用的应用场景

01 / 分布式协调

分布式协调简单说就是有人对ZooKeeper中的数据做了监听，如果修改了ZooKeeper中被监听的数据，ZooKeeper反过来会告诉给发起监听的人数据的变更。比如在Kafka的设计中，Kafka的一个节点在ZooKeeper中创建了一个数据，Kafka的策略是谁创建了这个数据谁就是Kafka集群的主节点，其余的节点都会去监听这个数据。如果主节点宕机了，这ZooKeeper对应的数据就会发生变更，既而监听这个数据的其余节点就会感知到主节点宕机了，然后重新进行选举。

02 / 元数据管理

很多分布式的程序需要集中式的管理自己的元数据，这个时候ZooKeeper就是一个很好的选择。比如Kafka，Storm等分布式的工具就会把集群里核心的元数据存放在ZooKeeper中。

03 / 高可用

很多分布式的项目都是主从式的架构，正常情况下集群里有一个是主节点，