【Kafka精进系列006】KafkaProducer消息发送源码解析

最新推荐文章于 2024-04-19 00:50:06 发布

是Guava不是瓜娃

最新推荐文章于 2024-04-19 00:50:06 发布

阅读量553

点赞数

分类专栏： Java进阶消息队列文章标签： kafka Kafka源码 KafkaProducer源码

本文链接：https://blog.csdn.net/noaman_wgs/article/details/105646505

版权

本文深入探讨KafkaProducer的源码，从拦截器、元数据更新、消息序列化、分区策略到消息缓存和发送流程，揭示了KafkaProducer内部的工作机制。在消息发送前，拦截器对消息进行预处理，接着更新元数据以获取最新集群信息。序列化将消息转换为字节数组，然后根据预设的分区策略（如轮询、键有序或自定义）决定消息的目标分区。消息会被缓存在RecordAccumulator中，满后唤醒Sender线程进行发送。Sender线程负责与Broker节点建立连接，将消息实际发送出去。

摘要由CSDN通过智能技术生成

上一讲中，我们大概的分析了下KafkaProducer消息发送流程，本节将从源码的角度深入分析消息发送过程。

消息发送之前的准备工作都已经在客户端KafkaProducer的构造器中完成，包括：配置项加载、序列器初始化、消息收集器初始化、消息发送线程初始化等等。而消息的发送入口在send()方法中：

Future<RecordMetadata> send(ProducerRecord<K, V> record, Callback callback);

public Future<RecordMetadata> send(ProducerRecord<K, V> record, Callback callback) {
   
        // intercept the record, which can be potentially modified; this method does not throw exceptions
        ProducerRecord<K, V> interceptedRecord = this.interceptors == null ? record : this.interceptors.onSend(record);
        return doSend(interceptedRecord, callback);
    }

1、拦截器

拦截器ProducerInterceptor是一个接口，我们可以自定义实现，在客户端KafkaProducer的构造器中会去查找ProducerInterceptor的实现并加载到集合中：

// 客户端KafkaProducer构造器初始化拦截器
List<ProducerInterceptor<K, V>> interceptorList = (List) (new ProducerConfig(userProvidedConfigs, false)).getConfiguredInstances(ProducerConfig.INTERCEPTOR_CLASSES_CONFIG,ProducerInterceptor.class);
this.interceptors = interceptorList.isEmpty() ? null : new ProducerInterceptors<>(interceptorList);

在消息发送之前，我们可以使用拦截器对消息进行处理：

ProducerInterceptors.onSend()

public ProducerRecord<K, V> onSend(ProducerRecord<K, V> record) {
   
    ProducerRecord<K, V> interceptRecord = record;
    for (ProducerInterceptor<K, V> interceptor : this.interceptors) {
   
        try {
   
            //  自定义的拦截器执行逻辑
            interceptRecord = interceptor.onSend(interceptRecord);
        } catch (Exception e) {
   
            // 省略...
        }
    }
    return interceptRecord;
}

一般没有拦截处理的逻辑就不需要实现该接口。

2、元数据更新，获取最新Cluster集群数据

Metadata封装了Kafka集群Cluster对象，并且保存Cluster数据的最后更新时间、版本号、是否需要更新数据等字段。

由于集群中分区数量、Leader副本是可能随时变化的，所以在发送消息之前，需要确认发送到topic对应的metadata的分区是可用的(有可能过期或者不存在等等)，返回最新的集群数据。

metadata添加当前topic，不存在说明是新topic，调用requestUpdateForNewTopics，将needUpdate设置为true表示需要更新最新数据；
尝试获取topic对应分区的详细信息，存在即返回集群信息cluster；
不存在最新topic的分区信息，唤醒sender线程更新Metadata中保存的Kafka集群元数据Cluster.
调用metadata.awaitUpdate等待sender线程更新完元数据；
若未获取到topic对应的分区信息，继续循环上面2个步骤，直至超时抛出异常；

private ClusterAndWaitTime waitOnMetadata(String topic, Integer partition, long maxWaitMs) throws InterruptedException {
   
  //  metadata添加当前topic，不存在说明是新topic，需要更新最新数据
  metadata.add(topic);
    // 从元数据中获取topic对应的分区信息, cluster维护了topic与分区的关系、leader/follower等关系
    Cluster cluster = metadata.fetch();
    Integer partitionsCount = cluster.partitionCountForTopic(topic);
    // 如果集群中分区存在并且, 大于之前的分区(说明是最新的数据),直接返回一个ClusterAndWaitTime,包含了cluster信息
    if (partitionsCount != null && (partition == null || partition < partitionsCount))
        return new ClusterAndWaitTime(cluster, 0);

    // 如果cluster不存在分区信息或者是过期数据,就唤醒sender线程去更新metadata数据
    long begin = time.milliseconds();
    long remainingWaitMs = maxWaitMs;
    long elapsed;
    do {
   
        log.trace("Requesting metadata update for topic {}.", topic);
        metadata.add(topic);
        int version = metadata.requestUpdate();
        // 唤醒sender线程, 更新metadata
        sender.wakeup();
        try {
   
           // 阻塞等待元数据更新完
            metadata.awaitUpdate(version, remainingWaitMs);
        } catch (TimeoutException ex) {
   
            throw new TimeoutException("Failed to update metadata after " + maxWaitMs + " ms.");
        }
        cluster = metadata.fetch();
        elapsed = time.milliseconds() - begin;
        if (elapsed >= maxWaitMs)
            throw new TimeoutException("Failed to update metadata after " + maxWaitMs + " ms.");
        if (cluster.unauthorizedTopics().contains(topic))
            throw new TopicAuthorizationException(topic);
        remainingWaitMs = maxWaitMs - elapsed;
        partitionsCount = cluster.partitionCountForTopic(topic);
    } while (partitionsCount == null);

    if (partition != null && partition >= partitionsCount) {
   
        throw new KafkaException(
                String.format("Invalid partition given with record: %d is not in the range [0...%d).", partition, partitionsCount));
    }

    return new ClusterAndWaitTime(cluster, elapsed);
}

再回到Sender线程中，看看Sender线程是如何更新Metadata中的cluster数据的：

主线程通过wakeup()唤醒Sender线程，间接调用间接唤醒 NetworkClient 的poll()去服务端拉取Cluster信息：

NetworkClient.poll(long timeout, long now)：

public List<ClientResponse> poll(long timeout, long now) {
   
    // ...
    
    // 判断是否需要更新Metadata
    long metadataTimeout = metadataUpdater.maybeUpdate(now);
    try {
   
        this.

最低0.47元/天解锁文章

是Guava不是瓜娃

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【Kafka精进系列006】KafkaProducer消息发送源码解析

上一讲中，我们大概的分析了下KafkaProducer消息发送流程，本节将从源码的角度深入分析消息发送过程。消息发送之前的准备工作都已经在客户端KafkaProducer的构造器中完成，包括：配置项加载、序列器初始化、消息收集器初始化、消息发送线程初始化等等。而消息的发送入口在send()方法中：Future<RecordMetadata> send(ProducerRecord&...
复制链接

扫一扫

专栏目录