还不懂Kafka？原理介绍和入门

不鲁诺

已于 2023-09-16 22:26:41 修改

阅读量57

点赞数 1

文章标签： kafka 分布式

于 2023-09-11 18:37:21 首次发布

本文链接：https://blog.csdn.net/sendohlib/article/details/132814859

版权

Kafka是一个分布式流处理平台，最初由LinkedIn开发，后来成为Apache软件基金会的一个顶级项目。它是一个高吞吐量、可扩展、持久性、分布式发布订阅消息系统，被广泛用于构建实时数据管道和事件驱动的应用程序。我们可以将其想象成一个超级强大的消息传递系统，用于在分布式环境中传送数据。它的工作原理和组成部分如下。本文将介绍Kafka的原理、各技术组件以及它的主要用法。

一、Kafka的基本概念和原理

1. 消息（Message）

Kafka 是一个消息系统，基本单元是消息。消息可以是任何数据，通常是文本、JSON、二进制等格式。消息会被生产者发布到Kafka的主题（Topic），然后由消费者订阅和消费。

2. 主题（Topic）

主题是消息的逻辑容器，用于组织和分类消息。生产者将消息发布到一个或多个主题，而消费者则订阅一个或多个主题。主题是Kafka中数据的核心组织方式，每个主题可以有多个分区。

3. 分区（Partition）

每个主题可以分为多个分区，分区是消息的物理存储单元。分区允许Kafka水平扩展，提供了高吞吐量和并行性。每个分区内的消息都有一个唯一的偏移量（Offset）用于标识消息的位置。

4. 生产者（Producer）

生产者负责将消息发布到Kafka主题。生产者可以选择将消息发布到特定主题的特定分区，或者由Kafka自动分配分区。生产者还可以异步地发送消息，提高了性能和吞吐量。

5. 消费者（Consumer）

消费者从Kafka主题中订阅消息，并按顺序消费它们。每个消费者都有一个消费者组（Consumer Group）的概念，多个消费者组可以并行地处理相同主题的消息，以实现负载均衡和高可用性。

6. 偏移量（Offset）

偏移量是消息在分区内的唯一标识符，消费者使用它来跟踪已经消费的消息。Kafka保留了一定时间内的消息，因此即使消息被消费了，消费者仍然可以通过偏移量来重新消费。

二、Kafka 技术组件

Kafka 的架构由以下几个核心组件构成：

1. Broker

Kafka集群由多个Broker组成，每个Broker是一个独立的Kafka服务器，负责存储和管理消息。Broker之间可以构建高可用性集群，确保数据的可靠性和容错性。

2. ZooKeeper

在早期版本的Kafka中，ZooKeeper被用于协调和管理Kafka集群。但在较新的Kafka版本中，已经不再依赖ZooKeeper。取而代之的是使用KRaft协议实现的内置协调器，以简化Kafka的部署和管理。

3. Producer API

Producer API 允许应用程序将消息发布到Kafka主题。生产者可以配置消息的分区策略、可靠性级别等参数。

import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerRecord;
import java.util.Properties;

public class KafkaProducerExample {
    public static void main(String[] args) {
        // 配置 Kafka 生产者属性
        Properties properties = new Properties();
        properties.put("bootstrap.servers", "localhost:9092"); // Kafka 服务器地址
        properties.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        properties.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");

        // 创建 Kafka 生产者实例
        KafkaProducer<String, String> producer = new KafkaProducer<>(properties);

        // 发送消息到指定主题
        String topic = "my-topic";
        String key = "key1";
        String value = "Hello, Kafka!";
        ProducerRecord<String, String> record = new ProducerRecord<>(topic, key, value);

        // 发送消息
        producer.send(record);

        // 关闭生产者
        producer.close();
    }
}

4. Consumer API

Consumer API 允许应用程序从Kafka主题中订阅和消费消息。消费者可以控制消息的位置和速率，以及管理消费者组。

import org.apache.kafka.clients.consumer.Consumer;
import org.apache.kafka.clients.consumer.ConsumerConfig;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import org.apache.kafka.common.serialization.StringDeserializer;
import java.util.Collections;
import java.util.Properties;

public class KafkaConsumerExample {
    public static void main(String[] args) {
        // 配置 Kafka 消费者属性
        Properties properties = new Properties();
        properties.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092"); // Kafka 服务器地址
        properties.put(ConsumerConfig.GROUP_ID_CONFIG, "my-group"); // 消费者组 ID
        properties.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
        properties.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());

        // 创建 Kafka 消费者实例
        Consumer<String, String> consumer = new KafkaConsumer<>(properties);

        // 订阅主题
        String topic = "my-topic";
        consumer.subscribe(Collections.singletonList(topic));

        // 持续消费消息
        while (true) {
            ConsumerRecords<String, String> records = consumer.poll(100);
            records.forEach(record -> {
                System.out.println("Key: " + record.key() + ", Value: " + record.value());
            });
        }
    }
}

5. Kafka Connect

Kafka Connect 是一个用于连接Kafka与外部数据源和目标的框架。它允许简化数据导入和导出任务，支持多种数据格式和存储系统。

6. Kafka Streams

Kafka Streams 是Kafka的流处理库，允许应用程序在Kafka主题上进行流式处理。它提供了丰富的操作符和API，用于实现复杂的数据处理逻辑。

三、Kafka 的主要用法

1. 实时数据管道

Kafka可以用作实时数据管道，将数据从生产者传递到消费者，支持大规模数据流的传输和处理。这对于构建实时分析、监控和警报系统非常有用。

2. 日志聚合

Kafka可用于聚合分布式应用程序的日志和事件数据。通过将日志数据发布到Kafka主题，可以集中存储和分析日志，以便后续的故障排查和性能调优。

3. 数据集成

Kafka Connect可以用于将Kafka与各种外部数据源集成，包括数据库、数据仓库、云存储等。这使得数据复制、迁移和同步变得更加容易。

4. 流式处理

Kafka Streams可以用于构建实时流式处理应用程序，例如实时数据转换、过滤、聚合和计算。它是一种强大的工具，可用于构建事件驱动的应用程序。

Kafka 的配置项非常丰富，它们允许您调整 Kafka 集群和客户端的行为。以下是一些常见的 Kafka 配置项示例以及它们的简要解释：

bootstrap.servers
- 描述：指定 Kafka 集群的地址列表，生产者和消费者使用它来发现 Kafka 集群的位置。
- 示例：bootstrap.servers=localhost:9092,localhost:9093
acks
- 描述：生产者要求经纪人（broker）确认收到消息的方式。可选值为0、1、all（或-1）。
- 示例：acks=1
key.serializer 和 value.serializer
- 描述：指定用于序列化生产者发送的键和值的序列化器。
- 示例：key.serializer=org.apache.kafka.common.serialization.StringSerializer value.serializer=org.apache.kafka.common.serialization.StringSerializer
group.id
- 描述：指定消费者组的唯一标识符。多个消费者可以属于同一个组，以实现负载均衡。
- 示例：group.id=my-consumer-group
auto.offset.reset
- 描述：指定当一个消费者加入一个新的话题时，从哪里开始读取消息。可选值为earliest（从最早的消息开始）和latest（从最新的消息开始）。
- 示例：auto.offset.reset=earliest
enable.auto.commit
- 描述：指定是否启用自动提交偏移量。如果启用，Kafka 将定期自动提交已消费消息的偏移量。
- 示例：enable.auto.commit=true
auto.commit.interval.ms
- 描述：当启用自动提交偏移量时，指定自动提交的时间间隔（以毫秒为单位）。
- 示例：auto.commit.interval.ms=1000
max.poll.records
- 描述：指定每次拉取（poll）的最大记录数。这可以用于控制消费者处理消息的速度。
- 示例：max.poll.records=500
max.poll.interval.ms
- 描述：指定两次拉取（poll）之间的最大时间间隔（以毫秒为单位）。用于避免长时间未响应的消费者被视为已死亡。
- 示例：max.poll.interval.ms=60000
compression.type
- 描述：指定生产者使用的消息压缩算法，以减小消息传输的大小。
- 示例：compression.type=snappy
log.retention.hours
- 描述：指定消息在 Kafka 中保留的时间（以小时为单位）。过期的消息将被删除。
- 示例：log.retention.hours=168（消息保留一周）

总结起来，Kafka是一个强大的分布式消息系统，具有高可扩展性、高可用性和可靠性。它在实时数据处理、日志聚合、数据集成和流式处理等方面具有广泛的应用。通过深入理解Kafka的原理和技术组件，开发人员和运维人员可以更好地利用Kafka来构建高效的数据管道和应用程序，欢迎交流学习。

不鲁诺

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
还不懂Kafka？原理介绍和入门

Kafka 是一个高吞吐量、可扩展、持久性、分布式发布订阅消息系统，用于构建实时数据管道和事件驱动的应用程序。文章首先介绍了 Kafka 的核心原理，包括消息、主题、分区、生产者、消费者和偏移量。接着，介绍了 Kafka 的主要技术组件，包括 Broker、ZooKeeper、Producer API、Consumer API、Kafka Connect 和 Kafka Streams。最后，文章阐述了 Kafka 的主要用途，包括实时数据管道、日志聚合、数据集成和流式处理。
复制链接

扫一扫