大数据之Kafka介绍及使用

蓝胖子的宝贝

已于 2023-04-28 16:17:41 修改

阅读量284

点赞数

分类专栏：大数据技术分享文章标签： kafka 大数据分布式

于 2023-04-27 16:51:12 首次发布

本文链接：https://blog.csdn.net/qq_42588609/article/details/130410379

版权

大数据技术分享专栏收录该内容

13 篇文章 0 订阅

订阅专栏

Kafka是一种分布式流处理平台，由Apache软件基金会开发和维护。它是一种高性能、低延迟、可扩展的消息传递系统，用于处理大量的实时数据流。Kafka最初是由LinkedIn开发的，用于处理其海量的实时数据流，现在已经成为了许多公司的首选解决方案。

Kafka的架构

Kafka的架构由以下几个组件组成：

Broker：Kafka集群中的每个节点都是一个Broker，它们负责接收和处理消息。
Topic：消息被发布到Topic中，每个Topic可以有多个Partition，每个Partition可以在不同的Broker上。
Producer：生产者将消息发布到Topic中。
Consumer：消费者从Topic中订阅消息，并处理它们。
Consumer Group：消费者可以组成一个Consumer Group，每个Group中的消费者共同消费一个Topic中的消息。

Kafka的工作原理

Kafka的工作原理是基于发布/订阅模式的。生产者将消息发布到Topic中，消费者从Topic中订阅消息，并处理它们。Kafka使用Pull模式，消费者从Broker中拉取消息，而不是由Broker推送消息给消费者。

Kafka的消息存储是基于日志的，每个消息都被追加到一个Partition的末尾。每个Partition都有一个唯一的标识符，称为Partition ID。消息在Partition中的顺序是有序的，但是在不同的Partition中的消息顺序是不确定的。

Kafka的优点

高性能：Kafka的消息传递速度非常快，可以处理大量的实时数据流。
可扩展性：Kafka的架构是分布式的，可以轻松地扩展到多个节点。
可靠性：Kafka的消息存储是基于日志的，可以保证消息的可靠性和一致性。
灵活性：Kafka支持多种编程语言和平台，可以轻松地与其他系统集成。
开源：Kafka是一个开源项目，可以免费使用和修改。

Kafka的应用场景

Kafka的应用场景非常广泛，包括以下几个方面：

日志收集：Kafka可以用于收集分布式系统中的日志，以便进行分析和监控。
实时数据处理：Kafka可以用于处理大量的实时数据流，例如网络流量、传感器数据等。
消息队列：Kafka可以用作消息队列，用于异步处理任务和事件。
流处理：Kafka可以与流处理框架（如Apache Spark和Apache Flink）集成，用于实时流处理。

以下是一个简单的Java代码示例，用于使用Kafka采集日志数据并消费：

import java.util.Properties;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerRecord;

public class KafkaLogCollector {
    public static void main(String[] args) {
        // Kafka生产者配置
        Properties producerProps = new Properties();
        producerProps.put("bootstrap.servers", "localhost:9092");
        producerProps.put("acks", "all");
        producerProps.put("retries", 0);
        producerProps.put("batch.size", 16384);
        producerProps.put("linger.ms", 1);
        producerProps.put("buffer.memory", 33554432);
        producerProps.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        producerProps.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");

        // Kafka消费者配置
        Properties consumerProps = new Properties();
        consumerProps.put("bootstrap.servers", "localhost:9092");
        consumerProps.put("group.id", "test-group");
        consumerProps.put("enable.auto.commit", "true");
        consumerProps.put("auto.commit.interval.ms", "1000");
        consumerProps.put("session.timeout.ms", "30000");
        consumerProps.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        consumerProps.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");

        // 创建Kafka生产者和消费者
        KafkaProducer<String, String> producer = new KafkaProducer<String, String>(producerProps);
        KafkaConsumer<String, String> consumer = new KafkaConsumer<String, String>(consumerProps);

        // 订阅主题
        consumer.subscribe(Arrays.asList("test-topic"));

        // 采集日志数据并发送到Kafka
        for (int i = 0; i < 100; i++) {
            String logData = "Log data " + i;
            producer.send(new ProducerRecord<String, String>("test-topic", Integer.toString(i), logData));
        }

        // 从Kafka消费日志数据
        while (true) {
            ConsumerRecords<String, String> records = consumer.poll(100);
            for (ConsumerRecord<String, String> record : records) {
                System.out.println("Received message: (" + record.key() + ", " + record.value() + ") at offset " + record.offset());
            }
        }
    }
}

这个示例代码中，我们首先定义了Kafka生产者和消费者的配置，然后创建了Kafka生产者和消费者实例。我们使用生产者将100条日志数据发送到名为“test-topic”的主题中，然后使用消费者从同一主题中消费日志数据。在消费者的while循环中，我们使用poll()方法从Kafka中获取日志数据，并将其打印到控制台上。

总结

Kafka是一种高性能、低延迟、可扩展的消息传递系统，用于处理大量的实时数据流。它的架构是分布式的，可以轻松地扩展到多个节点。Kafka的应用场景非常广泛，包括日志收集、实时数据处理、消息队列和流处理等。Kafka是一个开源项目，可以免费使用和修改。