kafka源码解析——kafka生产者模块

最新推荐文章于 2022-07-08 17:25:51 发布

置顶

卖萌の哈士奇

最新推荐文章于 2022-07-08 17:25:51 发布

阅读量646

点赞数

分类专栏： kafka 文章标签：消息队列 kafka

本文链接：https://blog.csdn.net/mc695192383/article/details/88831631

版权

kafka消息队列主要由生产者（producer）、消费者(consumer)以及消息代理(broker)构成，生产者会源源不断地将消息写入消息代理，然后消费者从消息代理中拉取消息并消费。从功能划分上来看，生产者和消费者都属于客户端(client)，消息代理属于服务端(server)。本文主要涉及kafka的生产者模块，从功能和底层原理两个方面对kafka生产的部分进行分析。

1.kakfa生产者的主要流程

首先看一下kafka生产者模块工作的主要流程，下面是流程图：

1.应用程序产生消息，调用kafkaproducer的send方法提交message；

2.为message选择一个分区，并将消息序列化；

3.将待发送的message收集到消息收集器RecordAccumulator中，RecordAccumulator中的记录按消息的分区进行划分，不同分区的消息插入不同的队列；

4.发送线程sender定期轮询，从消息收集器中捞出已经准备好的代理节点，并和代理节点建立连接；

5.发送线程sender从消息收集器中捞出发送往建立连接的代理节点的分区批记录，并将这些分区批记录按目标节点划分，发送往同一个代理节点的批记录发送同一个list中，最后构建ClientRequest请求将list中的批记录发送到对应的代理节点上。

下面我们将每一步展开来看里面具体实现的细节。

2.消息发送

应用程序在生产消息，并调用kafkaProducer的send方法时，需要先将消息封装成ProducerRecord，然后再将ProducerRecord传入send方法中。我们首先来看一下ProducerRecord中有些什么：

public class ProducerRecord<K, V> {

    private final String topic;
    private final Integer partition;
    private final Headers headers;
    private final K key;
    private final V value;
    private final Long timestamp;
   省略……
    }

ProducerRecrod中的主要参数字段如上面的代码所示，topic字段表示该消息需要发送到哪个主题，partition表示消息需要发送的主题的分区，<topic，partition>从理论上来说就可以确定消息需要发送的唯一节点了。

这里简单介绍以下分区的概念，分区是对主题的一种划分，用户可以对每个主题指定1至多个分区，生产者产生的消息会被发送到唯一的一个分区中，而消费组可以订阅主题，对每个消费组而言，这个消费组都会消费这个主题的所有分区，但每个分区只会被消费组中的唯一一个消费者消费。

在上图中有两个消费者往主题Topic发送消息，Topic一共有4个分区，分布在两个节点上，有一个消费分组订阅了该主题，消费分组中共有三个消费者。消费者生产的消息会均衡的分布到Topic的四个分区上，每个分区上的消息都不会重复，同时消费分组会消费来自Topic中的所有分区的消息，当对某个分区而言，它只会被消费组中的一个消费者线程消费，例如上图中，P1和P4被分配给Consumer1，P2被分配给Consumer2，P3被分配给Consumer3，他们会一直以这种分配形式进行消费直到触发Rebalance操作。

消息是没有key这个概念的，这里的key主要是用来做均衡字段的，如果没有指定key和partition字段，kafka会采用round-robin方式来将消息均衡的发送到不同的分区；而如果用户指定了partition的值，则就发送到该partition对应的分区主节点；如果用户没有指定partition而指定了key字段，则对key进行散列化，然后将散列化的值与分区的数量进行取模运算，取模运算的结果就是消息需要发往的分区号。

private int partition(ProducerRecord<K, V> record, byte[] serializedKey, byte[] serializedValue, Cluster cluster) {
        Integer partition = record.partition();
        return partition != null ?
                partition :
                partitioner.partition(
                        record.topic(), record.key(), serializedKey, record.value(), serializedValue, cluster);
    }

上面的代码是用于计算消息需要发送的分区号的，我们可以看出，如果用户指定了partition就直接用这个指定的分区号，如果没有指定，则会调用partitioner.partition方法计算分区号，我们来看一下这个分区算法的细节：

public int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster) {
	//获取指定主题的所有分区
        List<PartitionInfo> partitions = cluster.partitionsForTopic(topic);
        int numPartitions = partitions.size();
        if (keyBytes == null) {
	//如果没有指定key，则调用nextValue方法获取topic的下一个自增数，并通过这个自增数同分区总数取余得到对应的分区号
            int nextValue = nextValue(topic);
            List<PartitionInfo> availablePartitions = cluster.availablePartitionsForTopic(topic);
            if (availablePartitions.size() > 0) {
                int part = Utils.toPositive(nextValue) % availablePartitions.size();
                return availablePartitions.get(part).partition();
            } else {
                // no partitions are available, give a non-available partition
                return Utils.toPositive(nextValue) % numPartitions;
            }
        } else {
            // 如果指定了key则通过key的散列化值与分区总数取余计算得到分区号
            return Utils.toPositive(Utils.murmur2(keyBytes)) % numPartitions;
        }
    }

上面的PartitionInfo对象表示一个分区的分布信息，PartitionInfo的主要成员变量如下：

public class PartitionInfo {

    private final String t

最低0.47元/天解锁文章

卖萌の哈士奇

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
kafka源码解析——kafka生产者模块

kafka消息队列主要由生产者（producer）、消费者(consumer)以及消息代理(broker)构成，生产者会源源不断地将消息写入消息代理，然后消费者从消息代理中拉取消息并消费。从功能划分上来看，生产者和消费者都属于客户端(client)，消息代理属于服务端(server)。本文主要涉及kafka的生产者模块，从功能和底层原理两个方面对kafka生产的部分进行分析。1.kakfa生产...
复制链接

扫一扫

专栏目录