Kafka生产者源码解析（一），2024年最新计算机程序设计python题库

最新推荐文章于 2024-07-16 15:00:25 发布

2401_84166376

最新推荐文章于 2024-07-16 15:00:25 发布

阅读量879

点赞数 20

分类专栏： 2024年程序员学习文章标签： kafka linq 分布式

本文链接：https://blog.csdn.net/2401_84166376/article/details/137488354

版权

2024年程序员学习专栏收录该内容

79 篇文章 0 订阅

订阅专栏

本文详细剖析了Kafka生产者API中的send方法，涉及消息拦截、元数据更新、序列化、分区策略和RecordAccumulator的使用。重点介绍了ProducerInterceptors、如何获取和更新元数据、以及如何选择合适的分区。

摘要由CSDN通过智能技术生成

this.ioThread = new KafkaThread(ioThreadName, this.sender, true);

this.ioThread.start();

……………………

} catch (Throwable t) {

……………………

}

再来看一下是如何创建Sender线程的。

Sender newSender(LogContext logContext, KafkaClient kafkaClient, ProducerMetadata metadata) {

………………

//创建NetworkClient，这是Kafka网络I/O的核心

KafkaClient client = kafkaClient != null ? kafkaClient : new NetworkClient(new Selector(………………), ………………);

………………

//返回Sender线程对象

return new Sender(………………);

}

去掉一些非核心代码，发现newSender方法要做的事情其实很简单：创建NetworkClient，这是Kafka网络I/O的核心，在后面发送消息请求时会用到；最后创建Sender对象，Sender实现了Runnable接口，是个线程类。至于Sender线程都做了什么我们现在并不需要太关心，毕竟本文的主角并不是它，我们把它留着在后面的文章中单独分析。

二、send方法探析

==========

构造完KafkaProducer对象之后，接着就会调用它的send方法，所以下面我开始关注send方法。

@Override

public Future send(ProducerRecord<K, V> record, Callback callback) {

// 拦截器，可在发送消息之前对消息进行拦截修改

ProducerRecord<K, V> interceptedRecord = this.interceptors.onSend(record);

return doSend(interceptedRecord, callback);

}

可以看到在发送消息之前，我们可以利用之前获取的拦截器对消息进行拦截修改，然后调用了一个doSend方法，该方法将会完成更新kafka集群元数据信息、对Key和Value进行序列化、分区选择、追加消息到RecordAccumulator消息累加器中、唤醒Sender线程的操作。下面将围绕这些内容进行分析。

1、ProducerInterceptors消息拦截器

ProducerInterceptors其实是一个ProducerInterceptor拦截器的集合，它的onSend方法只不过是在循环遍历这些拦截器，并调用每个拦截器的onSend方法，源码如下：

public ProducerRecord<K, V> onSend(ProducerRecord<K, V> record) {

ProducerRecord<K, V> interceptRecord = record;

//循环遍历拦截器

for (ProducerInterceptor<K, V> interceptor : this.interceptors) {

try {

//调用每个拦截器的onSend方法

interceptRecord = interceptor.onSend(interceptRecord);

} catch (Exception e) {

………………

}

return interceptRecord;

}

ProducerInterceptor是一个接口，所以如果我们需要写自己的拦截逻辑时，只需要去实现这个接口，将自己的拦截逻辑放在onSend方法中即可。

2、Kafka集群元数据信息更新

消息经过拦截修改后进入到doSend方法，若没有指定分区，后面将会使用Cluster信息计算分区号，因此在此之前需要获取最新的Cluster集群信息。下面是doSend方法中涉及到元数据信息更新的代码部分，其余部分省略。

private Future doSend(ProducerRecord<K, V> record, Callback callback) {

………………

ClusterAndWaitTime clusterAndWaitTime;

try {

//等待元数据更新

clusterAndWaitTime = waitOnMetadata(record.topic(), record.partition(), maxBlockTimeMs);

} catch (KafkaException e) {

………………

}

//获取到Cluster集群最新信息

Cluster cluster = clusterAndWaitTime.cluster;

………………

//计算分区号

int partition = partition(record, serializedKey, serializedValue, cluster);

………………

}

进入waitOnMetadata方法源码，可以看到这里的逻辑主要是判断metadata中的元数据信息是否需要更新，当需要更新时，则通过do-while循环进行更新，其中核心部分是通过**metadata.awaitUpdate（）**方法阻塞当前线程，等待Sender线程向远程服务器发起元数据更新请求，直到远程服务器返回了新的元数据信息才唤醒当前线程，最终返回最新的cluster元数据信息。

private ClusterAndWaitTime waitOnMetadata(String topic, Integer partition, long maxWaitMs) throws InterruptedException {

//通过metadata获取cluster信息, metadata之前已经在KafkaProducer构造方法中获取到

Cluster cluster = metadata.fetch();

……………………

//将topic加入到metadata中进行维护

metadata.add(topic);

//从cluster信息中获取topic的分区数

Integer partitionsCount = cluster.partitionCountForTopic(topic);

//如果partitionsCount不为空则说明metadata中已经维护了该topic的元数据，并且需要更新的分区号未定义或者在已知的分区范围内

//则直接返回metadata中的cluster信息

if (partitionsCount != null && (partition == null || partition < partitionsCount))

return new ClusterAndWaitTime(cluster, 0);

………………

//如果metadata中没有维护该topic的元数据，或者需要更新的分区号是新的时，则进行metadata的更新。

//do-while循环更新

do {

…………

//将topic加入到metadata中进行维护

metadata.add(topic);

//获取当前元数据版本号

int version = metadata.requestUpdate();

//唤醒sender线程

sender.wakeup();

try {

//阻塞等待元数据更新结束

metadata.awaitUpdate(version, remainingWaitMs);

} catch (TimeoutException ex) {

……………………

}

//拿到更新后的集群信息

cluster = metadata.fetch();

elapsed = time.milliseconds() - begin;

//检测超时时间

if (elapsed >= maxWaitMs) {

……………………

}

……………………

} while (partitionsCount == null || (partition != null && partition >= partitionsCount));

//返回更新后的cluster信息

return new ClusterAndWaitTime(cluster, elapsed);

}

3、Serializer序列化器

Kafka发送的消息是在网络上进行传输，所以，doSend方法还会通过keySerializer和valueSerializer将我们的消息进行序列化。producer端需要序列化，consumer端需要反序列化。下面是doSend方法中涉及到消息序列化的代码部分，其余部分省略。

private Future doSend(ProducerRecord<K, V> record, Callback callback) {

………………

byte[] serializedKey;

try {

//使用keySerializer将key进行序列化

serializedKey = keySerializer.serialize(record.topic(), record.headers(), record.key());

} catch (ClassCastException cce) {

………………

}

byte[] serializedValue;

try {

//使用valueSerializer将value进行序列化

serializedValue = valueSerializer.serialize(record.topic(), record.headers(), record.value());

} catch (ClassCastException cce) {

………………

}

………………

}

4、Partitioner分区器

我们的消息最终都会发往一个合适的分区，如果我们在ProducerRecord消息记录中已经给partition字段指定好了分区号，那么将会优先选择此分区，否则将会通过**partitioner.partition（）**方法为我们选择一个合适的分区。下面是doSend方法中涉及到计算分区的代码部分，其余部分省略。

private Future doSend(ProducerRecord<K, V> record, Callback callback) {

………………

//计算分区

int partition = partition(record, serializedKey, serializedValue, cluster);

………………

}

进入partition方法。

private int partition(ProducerRecord<K, V> record, byte[] serializedKey, byte[] serializedValue, Cluster cluster) {

//获得ProducerRecord中的partition字段值

Integer partition = record.partition();

//如果ProducerRecord中partition字段已经设置了分区号，则直接返回该分区号，否则调用分区器进行计算合适的分区号

return partition != null ?

partition :

partitioner.partition(

record.topic(), record.key(), serializedKey, record.value(), serializedValue, cluster);

}

好家伙，里面还有个partition方法，继续进入核心的**partitioner.partition（）**方法：

public int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster) {

//从cluster中获取topic的分区信息

List partitions = cluster.partitionsForTopic(topic);

//获得分区数量

int numPartitions = partitions.size();

//如果消息没有key

if (keyBytes == null) {

//递增counter，用于后面取模运算

int nextValue = nextValue(topic);

//选择availablePartitions

List availablePartitions = cluster.availablePartitionsForTopic(topic);

if (availablePartitions.size() > 0) {

int part = Utils.toPositive(nextValue) % availablePartitions.size();

return availablePartitions.get(part).partition();

} else {

//返回一个不可用的分区

return Utils.toPositive(nextValue) % numPartitions;

}

} else {

// 如果消息有key的情况

return Utils.toPositive(Utils.murmur2(keyBytes)) % numPartitions;

}

最后来总结下**partitioner.partition（）**方法的流程：

1、首先是通过cluster获取到topic的分区信息，从而获得分区数量。

2、接下来会有两种情况：当我们发送的消息没有key和有key两种情况。

**（1）消息没有key时：**先通过nextValue（）方法递增counter返回一个int型的变量给nextValue，然后获取该topic可用的分区存入list中，如果可用分区数大于0，则将刚才的nextValue和可用分区数取模运算，最后得出分区号结果；如果可用分区数小于等于0，则返回一个不可用的分区。

**（2）消息有key时：**获取key的hash值然后和分区数进行取模运算，得出分区号结果。

5、追加消息到RecordAccumulator消息累加器

最后doSend方法会将我们的消息追加到accumulator消息累加器中，然后唤醒Sender线程。下面是doSend方法中涉及到追加消息入RecordAccumulator的代码部分，其余部分省略。

private Future doSend(ProducerRecord<K, V> record, Callback callback) {

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数同学面临毕业设计项目选题时，很多人都会感到无从下手，尤其是对于计算机专业的学生来说，选择一个合适的题目尤为重要。因为毕业设计不仅是我们在大学四年学习的一个总结，更是展示自己能力的重要机会。

因此收集整理了一份《2024年计算机毕业设计项目大全》，初衷也很简单，就是希望能够帮助提高效率，同时减轻大家的负担。

既有Java、Web、PHP、也有C、小程序、Python等项目供你选择，真正体系化！

由于项目比较多，这里只是将部分目录截图出来，每个节点里面都包含素材文档、项目源码、讲解视频

如果你觉得这些内容对你有帮助，可以添加VX：vip1024c （备注项目大全获取）

同学面临毕业设计项目选题时，很多人都会感到无从下手，尤其是对于计算机专业的学生来说，选择一个合适的题目尤为重要。因为毕业设计不仅是我们在大学四年学习的一个总结，更是展示自己能力的重要机会。**

因此收集整理了一份《2024年计算机毕业设计项目大全》，初衷也很简单，就是希望能够帮助提高效率，同时减轻大家的负担。
[外链图片转存中…(img-cBXJjEzt-1712526723254)]
[外链图片转存中…(img-ihYD7flO-1712526723255)]
[外链图片转存中…(img-jLzEvROh-1712526723255)]

既有Java、Web、PHP、也有C、小程序、Python等项目供你选择，真正体系化！

由于项目比较多，这里只是将部分目录截图出来，每个节点里面都包含素材文档、项目源码、讲解视频

如果你觉得这些内容对你有帮助，可以添加VX：vip1024c （备注项目大全获取）
[外链图片转存中…(img-Q0iXoML2-1712526723255)]