Kafka基础知识

EmiKyoTo

已于 2024-02-22 15:33:58 修改

阅读量1.1k

点赞数 24

文章标签： kafka 分布式

于 2024-02-22 11:28:21 首次发布

本文链接：https://blog.csdn.net/EmiKyoTo/article/details/136229094

版权

一、简介

Kafka 是一个分布式流处理平台，用于收集、处理、存储和集成大规模数据。它具有高吞吐量、容错性和可伸缩性等特点，被广泛应用于数据集成、流处理、日志聚合等场景。

Kafka 的核心概念包括以下内容：

事件（event）：事件是由软件或应用程序识别或记录的任何类型的操作、事件或更改。例如，支付、网站点击或温度读数等。
主题（topic）：主题是 Kafka 中最基本的组织单元，类似于关系型数据库中的表。它是一种逻辑上的数据分类，用于存储相同类型的事件流。
分区（partition）：Kafka 的主题可以分成多个分区，每个分区可以在集群中的不同节点上进行存储和处理。分区可以提高系统的吞吐量和可伸缩性。
生产者：生产者是将消息发布到 Kafka 主题的客户端应用程序。它负责将消息发送到 Kafka 集群。
消费者：消费者是从 Kafka 主题订阅并处理消息的客户端应用程序。它负责从 Kafka 集群读取消息并进行相应的处理。
代理（Broker）：Kafka 集群由多个代理组成，每个代理负责存储和处理数据。代理之间可以进行数据复制和分布式协调。
Controller：Kafka集群中的一个重要组件，负责管理分区的领导者选举、副本状态的管理以及集群的整体协调。Controller是一种角色，而不是指代具体的某个Broker。
Leader：Kafka分区中的领导者副本，负责处理生产者发送的消息和消费者的读取请求。每个分区都有一个领导者（Leader）和多个追随者（Follower）。

除此之外，Kafka 还有一些常见的使用场景，包括数据集成、监控指标、日志聚合、流处理和发布-订阅消息传递等。

总的来说，Kafka 是一个强大的分布式事件流处理平台，适用于处理大规模数据流，并在各种行业和场景中得到广泛应用。

二、高吞吐量和容错性

Kafka 实现高吞吐量和容错性的关键在于其设计和架构。以下是 Kafka 实现高吞吐量和容错性的一些关键因素：

分区：Kafka 的主题可以分成多个分区，每个分区可以在集群中的不同节点上进行存储和处理。这种分区机制可以实现并行处理，从而提高系统的吞吐量。
复制：Kafka 通过在多个代理之间复制数据来实现容错性。每个分区都可以配置多个副本，当某个代理发生故障时，其他副本可以接管工作，确保数据不丢失。
高效的存储和检索：Kafka 的存储设计基于日志结构，采用顺序写入和顺序读取的方式，这样可以提高数据的写入和读取效率，从而实现高吞吐量。
集群架构：Kafka 采用分布式的集群架构，可以水平扩展，从而满足不断增长的数据处理需求。
轻量级的通信协议：Kafka 使用轻量级的文本协议进行生产者和消费者与代理之间的通信，这有助于降低通信开销，提高系统的吞吐量。

综上所述，Kafka 通过分区、复制、高效的存储和检索、集群架构以及轻量级的通信协议等方式，实现了高吞吐量和容错性，使其成为处理大规模数据流的理想选择。

三、副本

在Kafka中，副本是指对分区数据的复制。每个分区可以配置多个副本，其中一个是领导者（leader），其余的是追随者（follower）。领导者负责处理生产者发送的消息和消费者的读取请求，而追随者则负责从领导者同步数据。这种副本机制可以提供容错性，当某个副本不可用时，系统仍然可以继续工作，从其他副本中获取数据。

3.1 leader&&follower

领导者（Leader）：每个分区只有一个领导者，领导者负责处理生产者发送的消息和消费者的读取请求。领导者负责维护分区的所有副本之间的数据同步，以及处理副本之间的数据复制和同步。
追随者（Follower）：追随者是领导者的副本，负责从领导者同步数据。追随者会不断地从领导者处拉取数据，以保持自己的数据与领导者保持同步。如果领导者发生故障，某个追随者可以被选举为新的领导者，从而保证系统的高可用性。

这种领导者-追随者的副本复制机制可以提供高可用性和容错性，确保即使某个副本不可用，系统仍然可以继续工作，并且能够从其他副本中获取数据。

3.2 选举机制

Kafka 中的选举机制是指在分布式环境下，当某个节点（例如分区的 leader）出现故障或不可用时，集群需要选举出新的 leader 来接管工作。Kafka 使用 ZooKeeper 或者元数据主题来实现选举机制。

选举的关键点包括：

基于 ZooKeeper 的选举：在较早的 Kafka 版本中，Kafka 使用 ZooKeeper 来维护集群的状态，包括每个分区的 leader 和 ISR（In-Sync Replicas）列表。当需要进行选举时，节点需要与 ZooKeeper 协调，以确定新的 leader。
元数据主题的选举：在较新的 Kafka 版本中，Kafka 引入了元数据主题作为 ZooKeeper 的替代方案。元数据主题是一个 Kafka 主题，包含了 Kafka 集群的元数据信息，包括每个分区的 leader 和 ISR 列表。当需要进行选举时，节点会从元数据主题中读取信息，并进行相应的选举流程。

在选举过程中，Kafka 使用了一些重要的机制，例如：

ISR（In-Sync Replicas，同步副本）列表：它表示当前可用的、已经赶上leader最新的消息的副本集合。在选举过程中，首先，controller会在ZooKeeper上查找该分区的所有副本中的Log End Offset（最大偏移量）最大的那个Broker，也就是说，该Broker的副本中保存的数据最新。然后，将该Broker选举为该分区的新Leader节点。如果有多个副本的LEO相等根据ISR（In-Sync Replicas，同步副本）列表中的副本状态和数据同步情况，选择新的leader。

通过理解这些重要的选举机制，可以确保 Kafka 集群在节点故障或不可用时能够快速、高效地选举出新的 leader，从而保证集群的高可用性和数据不丢失。

四、消息持久化

Kafka使用持久化来确保消息的可靠性和持久性。它通过将消息持久化到磁盘上的日志文件中来实现这一点。这种持久化机制确保即使在发生故障或重启时，消息也不会丢失。Kafka的持久化机制使得消息可以被安全地存储和恢复，从而保证了系统的可靠性。

具体实现步骤：

写入消息：当生产者发送消息时，消息首先被写入到Kafka的日志文件中。这些日志文件以分区的形式存在，每个分区都有自己的日志文件。
刷写到磁盘：Kafka使用异步方式将消息写入到磁盘上的日志文件中。这意味着消息首先被写入到操作系统的页缓存中，然后由操作系统决定何时将数据刷写到磁盘。
持久化：一旦消息被刷写到磁盘上的日志文件中，它就变得持久化了。即使在发生故障或重启时，这些消息也不会丢失。

通过这种方式，Kafka实现了消息的持久化，确保了消息的可靠性和持久性。

EmiKyoTo

关注

24
点赞
踩
31

收藏

觉得还不错? 一键收藏
1
评论
Kafka基础知识

Kafka 是一个分布式流处理平台，用于收集、处理、存储和集成大规模数据。它具有高吞吐量、容错性和可伸缩性等特点，被广泛应用于数据集成、流处理、日志聚合等场景。Kafka 的核心概念包括以下内容：事件：事件是由软件或应用程序识别或记录的任何类型的操作、事件或更改。例如，支付、网站点击或温度读数等。主题：主题是 Kafka 中最基本的组织单元，类似于关系型数据库中的表。它是一种逻辑上的数据分类，用于存储相同类型的事件流。
复制链接

扫一扫