kafka源码解析——kafka生产者模块

kafka消息队列主要由生产者(producer)、消费者(consumer)以及消息代理(broker)构成,生产者会源源不断地将消息写入消息代理,然后消费者从消息代理中拉取消息并消费。从功能划分上来看,生产者和消费者都属于客户端(client),消息代理属于服务端(server)。本文主要涉及kafka的生产者模块,从功能和底层原理两个方面对kafka生产的部分进行分析。

1.kakfa生产者的主要流程

首先看一下kafka生产者模块工作的主要流程,下面是流程图:

1.应用程序产生消息,调用kafkaproducer的send方法提交message;

2.为message选择一个分区,并将消息序列化;

3.将待发送的message收集到消息收集器RecordAccumulator中,RecordAccumulator中的记录按消息的分区进行划分,不同分区的消息插入不同的队列;

4.发送线程sender定期轮询,从消息收集器中捞出已经准备好的代理节点,并和代理节点建立连接;

5.发送线程sender从消息收集器中捞出发送往建立连接的代理节点的分区批记录,并将这些分区批记录按目标节点划分,发送往同一个代理节点的批记录发送同一个list中,最后构建ClientRequest请求将list中的批记录发送到对应的代理节点上。

 

下面我们将每一步展开来看里面具体实现的细节。

2.消息发送

应用程序在生产消息,并调用kafkaProducer的send方法时,需要先将消息封装成ProducerRecord,然后再将ProducerRecord传入send方法中。我们首先来看一下ProducerRecord中有些什么:

public class ProducerRecord<K, V> {

    private final String topic;
    private final Integer partition;
    private final Headers headers;
    private final K key;
    private final V value;
    private final Long timestamp;
   省略……
    }

ProducerRecrod中的主要参数字段如上面的代码所示,topic字段表示该消息需要发送到哪个主题,partition表示消息需要发送的主题的分区,<topic,partition>从理论上来说就可以确定消息需要发送的唯一节点了。

这里简单介绍以下分区的概念,分区是对主题的一种划分,用户可以对每个主题指定1至多个分区,生产者产生的消息会被发送到唯一的一个分区中,而消费组可以订阅主题,对每个消费组而言,这个消费组都会消费这个主题的所有分区,但每个分区只会被消费组中的唯一一个消费者消费。

在上图中有两个消费者往主题Topic发送消息,Topic一共有4个分区,分布在两个节点上,有一个消费分组订阅了该主题,消费分组中共有三个消费者。消费者生产的消息会均衡的分布到Topic的四个分区上,每个分区上的消息都不会重复,同时消费分组会消费来自Topic中的所有分区的消息,当对某个分区而言,它只会被消费组中的一个消费者线程消费,例如上图中,P1和P4被分配给Consumer1,P2被分配给Consumer2,P3被分配给Consumer3,他们会一直以这种分配形式进行消费直到触发Rebalance操作。

 

消息是没有key这个概念的,这里的key主要是用来做均衡字段的,如果没有指定key和partition字段,kafka会采用round-robin方式来将消息均衡的发送到不同的分区;而如果用户指定了partition的值,则就发送到该partition对应的分区主节点;如果用户没有指定partition而指定了key字段,则对key进行散列化,然后将散列化的值与分区的数量进行取模运算,取模运算的结果就是消息需要发往的分区号。

private int partition(ProducerRecord<K, V> record, byte[] serializedKey, byte[] serializedValue, Cluster cluster) {
        Integer partition = record.partition();
        return partition != null ?
                partition :
                partitioner.partition(
                        record.topic(), record.key(), serializedKey, record.value(), serializedValue, cluster);
    }

上面的代码是用于计算消息需要发送的分区号的,我们可以看出,如果用户指定了partition就直接用这个指定的分区号,如果没有指定,则会调用partitioner.partition方法计算分区号,我们来看一下这个分区算法的细节:

public int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster) {
	//获取指定主题的所有分区
        List<PartitionInfo> partitions = cluster.partitionsForTopic(topic);
        int numPartitions = partitions.size();
        if (keyBytes == null) {
	//如果没有指定key,则调用nextValue方法获取topic的下一个自增数,并通过这个自增数同分区总数取余得到对应的分区号
            int nextValue = nextValue(topic);
            List<PartitionInfo> availablePartitions = cluster.availablePartitionsForTopic(topic);
            if (availablePartitions.size() > 0) {
                int part = Utils.toPositive(nextValue) % availablePartitions.size();
                return availablePartitions.get(part).partition();
            } else {
                // no partitions are available, give a non-available partition
                return Utils.toPositive(nextValue) % numPartitions;
            }
        } else {
            // 如果指定了key则通过key的散列化值与分区总数取余计算得到分区号
            return Utils.toPositive(Utils.murmur2(keyBytes)) % numPartitions;
        }
    }

上面的PartitionInfo对象表示一个分区的分布信息,PartitionInfo的主要成员变

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值