Kafka：带你了解Apache Kafka

爱写代码的July

于 2024-07-21 15:32:18 发布

阅读量307

点赞数 9

分类专栏：项目其他文章标签： kafka apache 分布式

本文链接：https://blog.csdn.net/Liu_y_xin/article/details/140587895

版权

项目同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

其他

14 篇文章 0 订阅

订阅专栏

一 kafka介绍

Kafka是一个由Apache软件基金会开发的开源流处理平台，最初由LinkedIn公司开发，并于2011年初开源，由Scala和Java编写，具备高吞吐量的分布式发布订阅消息系统的特性。 Kafka允许我们发布和订阅流式的记录。这些记录可以类比为数据库中的表或文件系统中的文件，但Kafka中的记录被组织成流的形式，每条记录都有一个唯一的序列号和时间戳。Kafka可以用于构建实时数据管道和实时流式应用程序，用于数据的收集、转换和分发。

Kafka具有以下特点：

高吞吐量：Kafka即使在普通硬件上也能支持每秒数百万条消息的吞吐量。
可扩展性：Kafka集群可以水平扩展，以支持更多的并发处理和数据存储。
持久性：Kafka通过分布式和可复制的消息传递机制提供高可用性，确保数据不会丢失。
容错性：Kafka自动处理失败的节点，确保数据的高可用性。
灵活性：Kafka支持多种消息格式和客户端库，可以轻松地与其他系统集成。

Kafka的基础架构包括以下几个关键组件：

Producer（生产者）：负责发布消息到Kafka集群。
Broker（代理）：Kafka集群中的服务器，负责存储和转发消息。
Consumer（消费者）：从Kafka集群中读取消息的客户端。
Topic（主题）：Kafka中的消息类别，每条发布到Kafka集群的消息都有一个指定的主题。
Partition（分区）：每个主题可以分成多个分区，分区是Kafka存储消息的物理单元。
Replica（副本）：每个分区可以有多个副本，以提高数据的可靠性和可用性。

Kafka广泛应用于日志收集、消息系统、用户活动跟踪、实时计算等各种场景。

二 kafka的消息格式

Kafka的消息格式相对灵活，主要由消息的键（Key）和值（Value）组成，它们都是字节数组。这意味着Kafka可以处理各种类型的数据，包括结构化数据、文本数据、二进制数据等。在发送和接收消息时，数据的键和值需要被序列化为字节数组。

Kafka的消息格式在网络传输中和磁盘上是一致的，这有助于降低服务器端的开销并提高IO速度。Kafka使用了一套自行设计的基于TCP层的协议来进行消息传输，这套协议完全是为了满足Kafka自身的业务需求而定制的。

具体到消息的内部结构，Kafka的消息格式随着版本的更新有所变化。例如，Kafka 0.7.x版本的消息格式包括magic、attributes、crc、value等字段，而到了Kafka 0.8.x及以后的版本，消息格式中加入了key相关的信息以及内容的长度等字段。此外，Kafka还引入了消息压缩机制，支持gzip、snappy和lz4等多种压缩格式，以提高传输和存储效率。

Kafka支持多种编程语言的客户端库，这些库允许开发者在不同平台上与Kafka进行交互。以下是一些常见的Kafka客户端库及其特点：

客户端库	支持语言	特点
Kafka Java API	Java	Kafka原生支持的客户端库，提供丰富的API和配置选项。
Kafka.Net	.NET	高性能、易用的.NET框架下的Apache Kafka客户端库，支持批量发送消息、事务等特性。
kafka-python	Python	纯Python实现的Kafka客户端，支持Kafka 0.8.2及更高版本，提供生产者、消费者和管理Kafka集群的API。
confluent-kafka-python	Python	基于高性能的C库librdkafka实现的Kafka客户端，支持Kafka 0.9及更高版本，性能优于kafka-python。
aiokafka	Python	基于kafka-python的异步Kafka客户端，适用于需要异步编程的场景。
librdkafka	C/C++	高性能的Kafka C/C++客户端库，是许多其他语言客户端库的基础。
confluent-kafka-go	Go	Go语言编写的Kafka客户端库，基于librdkafka，提供高性能和丰富的API。

三 kafka的优缺点

Kafka的具有以下优点：

高吞吐量和低延迟：Kafka能够处理每秒数百万条消息，具有极低的延迟，这使得它非常适合处理大量实时数据。通过分批发送压缩数据的方式，Kafka减少了数据传输开销，进一步提高了吞吐量。
可伸缩性：Kafka的设计理念是通过分布式架构来实现高度的可伸缩性。支持broker的横向拓展，可以轻松地扩展到成千上万的生产者和消费者，以应对不断增长的数据流量和工作负载。
持久性和可靠性：Kafka将所有的消息持久化存储在磁盘上，确保数据不会丢失。采用多副本机制，使得数据可以在集群中的多个节点间进行复制，提供故障容忍和高可用性。
容错性：Kafka具备高度的容错性，即使在节点故障的情况下仍能保持数据的可靠传输。当集群中的某个节点失效时，生产者和消费者可以自动重定向到其他可用节点，确保消息的连续性。
多语言支持：Kafka提供了丰富的客户端API，支持多种编程语言，如Java、Python、Go和Scala等，使得开发者能够轻松地将Kafka集成到他们的应用程序中。
异步处理：Kafka支持异步处理模式，允许生产者和消费者之间以异步方式进行通信，提高处理效率。
支持多种消息模式：Kafka支持多种模式的消息，包括点对点模式和发布-订阅模式等，满足不同应用场景的需求。
流数据处理能力：Kafka可以与Spark、Flink等流处理框架结合使用，提供丰富的流数据处理能力。
低资源消耗：Kafka对CPU和内存的消耗比较小，对网络开销也比较小。
支持跨数据中心的数据复制：Kafka支持跨数据中心的数据复制，增强了数据的安全性和可用性。

Kafka的缺点如下：

数据实时性稍弱：由于是批量发送，Kafka的数据实时性可能不如某些其他消息队列系统。
消息顺序性问题：Kafka只能保证每个分区内的消息顺序性，但在跨分区的场景下，消息的顺序性可能无法得到保证。
配置复杂：Kafka的配置相对复杂，需要深入了解其内部原理和配置参数才能优化和调整性能。
学习成本高：Kafka是一个分布式系统，使用起来相对复杂，需要对分布式系统和消息队列的原理有一定的了解，对于初学者来说学习成本较高。
依赖Zookeeper：Kafka依赖于Zookeeper进行集群管理和元数据存储，增加了系统的复杂性和对Zookeeper的依赖性。
监控不完善：Kafka自带的监控功能相对较弱，需要安装额外的插件来完善监控体系。
扩容复杂：Kafka的扩容操作相对复杂，需要谨慎处理分区和副本的重新分配，可能会导致数据迁移和停机时间。
生态不完善：Kafka在某些方面（如MQTT协议支持）的生态可能不如其他消息队列系统完善。

四 kafka如何保证可靠性

Kafka通过一系列机制和技术手段来保证数据的可靠性，确保消息在传输和存储过程中的高可用性、持久性和一致性。Kafka保证可靠性的主要方式可以概括为：

1. 分区复制与多副本机制

分区与副本：Kafka将每个主题（Topic）划分为多个分区（Partition），每个分区可以有多个副本（Replica）。这些副本被分布在不同的Broker节点上，以实现数据的冗余存储。
主副本与备份副本：每个分区中会有一个副本被选为主副本（Leader），负责处理读写请求。其他副本作为备份副本（Follower），从主副本同步数据。
数据同步：当主副本写入新数据时，会同步到备份副本中，确保数据的一致性和可靠性。如果主副本出现故障，备份副本可以接管服务，保证服务的连续性。

2. ISR（In-Sync Replicas）机制

同步副本集合：ISR是指与主副本保持同步的副本集合。只有ISR中的副本才能被选为新的主副本，这保证了数据的一致性和可靠性。
动态调整：ISR是一个动态调整的集合，如果某个副本落后主副本的时间过长，它将被踢出ISR。当该副本追上进度后，可以重新加入ISR。

3. 日志持久化

写入磁盘：Kafka将消息持久化到磁盘上，即使Broker宕机或重启，消息也不会丢失。Kafka使用顺序写入和分段存储的方式来提高性能，同时保证数据的可靠性。
页缓存：Kafka利用操作系统的页缓存来提高写入性能。消息首先被写入页缓存，然后异步地刷新到磁盘上。这种方式减少了磁盘I/O操作，提高了写入速度。

4. 生产者确认机制（acks）

acks参数：生产者（Producer）在发送消息时，可以通过acks参数来控制消息的持久化级别。
acks=0：生产者不等待任何确认，直接认为消息发送成功，但这种方式可能会丢失消息。
acks=1：等待主副本确认消息写入本地磁盘后返回确认，但在消息复制到备份副本前主副本故障，仍可能丢失数据。
acks=all（或acks=-1）：等待所有ISR中的副本都确认消息写入后返回确认，这种方式最可靠但性能较低。

5. 容错性与故障恢复

故障检测与恢复：Kafka使用ZooKeeper等分布式协调系统来管理Broker节点和分区的状态信息。当Broker节点发生故障时，集群可以自动检测到并进行故障转移，保证系统的连续性。
Leader选举：当主副本不可用时，Kafka会通过选举算法从ISR中选择一个新的主副本，确保服务的持续可用。

6. 高可用性设计

分布式架构：Kafka天生就是分布式的，各个组件均为分布式结构，可以在不停机的情况下扩展Kafka的机器和节点。
负载平衡：Kafka的消息处理状态由消费者端维护，当某个消费者发生故障时，系统能够自动进行负载平衡，将任务重新分配给其他消费者，保证消息处理的高可靠性和连续性。

五 kafka如何保证数据冗余存储

Kafka通过多副本复制机制来保证数据的冗余存储，从而提供高可用性和容错性。以下是Kafka保证数据冗余存储的具体方式：

1. 分区与副本

Kafka将每个主题（Topic）划分为多个分区（Partition），每个分区可以有多个副本（Replica）。这些副本被分布在不同的Broker节点上，以实现数据的冗余存储。

每个分区都有一个Leader副本和若干个Follower副本。Leader副本负责处理该分区的所有读写请求，而Follower副本则从Leader副本同步数据，以保持数据的一致性。

2. ISR（In-Sync Replicas）机制

ISR是指与Leader副本保持同步的Follower副本集合。只有当Follower副本成功复制了Leader副本的消息，并且与Leader副本的进度相差不大时，它才会被加入到ISR中。

只有ISR中的副本才能参与Leader选举和数据复制过程，这保证了数据的一致性和可靠性。如果某个Follower副本落后太多，它将被踢出ISR，并在追上进度后重新加入。

3. 数据复制过程

当生产者（Producer）发送消息到Kafka时，消息首先被写入Leader副本的本地磁盘。

Leader副本随后将消息同步到ISR中的所有Follower副本。只有当ISR中的所有副本都成功写入消息后，Leader副本才会向生产者发送确认消息（根据生产者的acks配置而定）。

如果Leader副本在消息同步过程中发生故障，Kafka将自动从ISR中选举一个新的Leader副本来接管服务，保证服务的连续性和数据的不丢失。

4. 配置副本因子

在创建Topic时，可以通过--replication-factor参数来指定每个分区的副本数量。这个参数决定了数据冗余的程度。

副本因子越高，数据的冗余程度就越高，但同时也会增加存储和复制的开销。因此，需要根据实际需求来平衡数据的冗余性和性能。

5. 分布式存储与容错

Kafka的分布式架构使得数据可以在多个Broker节点之间进行冗余存储。即使某个Broker节点发生故障，其他节点上的副本仍然可以提供服务，保证数据的可用性和可靠性。

Kafka还提供了丰富的监控和报警功能，可以实时监控集群的状态和性能指标，及时发现并处理异常情况，从而进一步提高数据的可靠性和安全性。