整理好了！2024年最常见 20 道 Kafka面试题（一）

最新推荐文章于 2024-06-06 21:31:37 发布

大料爱编程

最新推荐文章于 2024-06-06 21:31:37 发布

阅读量674

点赞数 12

分类专栏：程序员面试消息队列 kafka 文章标签： kafka 分布式面试跳槽后端中间件消息队列

本文链接：https://blog.csdn.net/weixin_38616368/article/details/139397948

版权

程序员面试同时被 3 个专栏收录

119 篇文章 1 订阅

订阅专栏

消息队列

20 篇文章 0 订阅

订阅专栏

kafka

10 篇文章 0 订阅

订阅专栏

一、什么是Apache Kafka，它主要用于什么场景？

Apache Kafka是一个分布式流处理平台，最初由LinkedIn开发，后来成为Apache软件基金会的一个开源项目。它被设计为一个高吞吐量、可扩展、容错的消息队列系统，能够处理实时数据流。

Kafka主要用于以下场景：

日志聚合：Kafka可以作为日志聚合系统，收集和处理来自多个服务器和应用程序的日志数据。
实时数据流处理：Kafka可以处理实时数据流，例如股票价格更新、社交媒体活动等。
事件源：Kafka可以作为事件源系统，用于记录应用程序的状态变化，以便进行审计或回放。
消息队列：Kafka可以作为消息队列，支持应用程序之间的异步通信。
流处理：Kafka与流处理框架（如Apache Flink或Spark Streaming）集成，可以对数据流进行实时处理。
数据管道：Kafka可以作为数据管道，将数据从一个系统传输到另一个系统。
指标和监控：Kafka可以收集和传输监控指标，用于性能监控和警报。
用户活动跟踪：Kafka可以跟踪用户活动，如点击流，用于分析用户行为。
物联网（IoT）：Kafka可以处理来自IoT设备的数据流，进行实时分析和决策。

Kafka的核心优势在于其高吞吐量、低延迟和强大的持久性保证，使其成为处理大规模数据流的理想选择。

二、Kafka的架构有哪些主要组件？

Kafka的架构由几个关键组件组成，每个组件都扮演着特定的角色，共同支持Kafka的高吞吐量、可扩展性和可靠性：

生产者（Producer）：生产者是向Kafka集群发送消息的客户端。生产者负责将数据发送到Kafka集群中的特定Topic。
消费者（Consumer）：消费者是读取Kafka集群中消息的客户端。消费者通常属于一个消费者组，它们订阅一个或多个Topic，并按照一定的顺序消费消息。
Broker：Broker是Kafka集群中的一个节点，负责维护Topic的分区，并为生产者和消费者提供消息存储和访问服务。
Topic：Topic是Kafka中消息的分类名称，类似于传统消息队列中的队列。生产者将消息发送到特定的Topic，而消费者从Topic中读取消息。
分区（Partition）：为了能够横向扩展，Kafka允许将Topic分割成多个分区。每个分区在物理上对应Broker上的一个日志文件。分区允许Kafka并行处理消息，提高吞吐量。
日志（Log）：每个分区在Broker上都有一个对应的日志，日志是消息的有序序列。日志提供持久化存储，确保消息不会丢失。
ZooKeeper：在Kafka早期版本中，ZooKeeper用于管理集群的协调工作，如Broker的注册、分区状态的监控、消费者组的管理等。但在Kafka 2.8.0及以后的版本中，引入了Raft协议，逐步取代了ZooKeeper。
消费者组（Consumer Group）：消费者组是Kafka中消费者的一种组织形式。消费者组内的消费者可以共享负载，共同消费一个Topic中的所有消息。
副本（Replica）：为了提高数据的可靠性，Kafka为每个分区维护多个副本。这些副本分布在不同的Broker上，以防止数据丢失。
Leader和Follower：在每个分区的副本中，有一个副本被选举为Leader，其余的副本称为Follower。生产者发送的消息首先写入Leader，然后由Leader同步到Follower。
Offset：Offset是一个逻辑上的序列号，用于标识消息在分区日志中的位置。消费者使用Offset来跟踪他们已经消费到的消息。
生产者和消费者API：Kafka提供了丰富的生产者和消费者API，允许开发者以编程方式发送和接收消息。