this.ioThread = new KafkaThread(ioThreadName, this.sender, true);
this.ioThread.start();
……………………
} catch (Throwable t) {
……………………
}
}
再来看一下是如何创建Sender线程的。
Sender newSender(LogContext logContext, KafkaClient kafkaClient, ProducerMetadata metadata) {
………………
//创建NetworkClient,这是Kafka网络I/O的核心
KafkaClient client = kafkaClient != null ? kafkaClient : new NetworkClient(new Selector(………………), ………………);
………………
//返回Sender线程对象
return new Sender(………………);
}
去掉一些非核心代码,发现newSender方法要做的事情其实很简单:创建NetworkClient,这是Kafka网络I/O的核心,在后面发送消息请求时会用到;最后创建Sender对象,Sender实现了Runnable接口,是个线程类。至于Sender线程都做了什么我们现在并不需要太关心,毕竟本文的主角并不是它,我们把它留着在后面的文章中单独分析。
二、send方法探析
==========
构造完KafkaProducer对象之后,接着就会调用它的send方法,所以下面我开始关注send方法。
@Override
public Future send(ProducerRecord<K, V> record, Callback callback) {
// 拦截器,可在发送消息之前对消息进行拦截修改
ProducerRecord<K, V> interceptedRecord = this.interceptors.onSend(record);
return doSend(interceptedRecord, callback);
}
可以看到在发送消息之前,我们可以利用之前获取的拦截器对消息进行拦截修改,然后调用了一个doSend方法,该方法将会完成更新kafka集群元数据信息、对Key和Value进行序列化、分区选择、追加消息到RecordAccumulator消息累加器中、唤醒Sender线程的操作。下面将围绕这些内容进行分析。
1、ProducerInterceptors消息拦截器
ProducerInterceptors其实是一个ProducerInterceptor拦截器的集合,它的onSend方法只不过是在循环遍历这些拦截器,并调用每个拦截器的onSend方法,源码如下:
public ProducerRecord<K, V> onSend(ProducerRecord<K, V> record) {
ProducerRecord<K, V> interceptRecord = record;
//循环遍历拦截器
for (ProducerInterceptor<K, V> interceptor : this.interceptors) {
try {
//调用每个拦截器的onSend方法
interceptRecord = interceptor.onSend(interceptRecord);
} catch (Exception e) {
………………
}
return interceptRecord;
}
ProducerInterceptor是一个接口,所以如果我们需要写自己的拦截逻辑时,只需要去实现这个接口,将自己的拦截逻辑放在onSend方法中即可。
2、Kafka集群元数据信息更新
消息经过拦截修改后进入到doSend方法,若没有指定分区,后面将会使用Cluster信息计算分区号,因此在此之前需要获取最新的Cluster集群信息。下面是doSend方法中涉及到元数据信息更新的代码部分,其余部分省略。
private Future doSend(ProducerRecord<K, V> record, Callback callback) {
………………
ClusterAndWaitTime clusterAndWaitTime;
try {
//等待元数据更新
clusterAndWaitTime = waitOnMetadata(record.topic(), record.partition(), maxBlockTimeMs);
} catch (KafkaException e) {
………………
}
//获取到Cluster集群最新信息
Cluster cluster = clusterAndWaitTime.cluster;
………………
//计算分区号
int partition = partition(record, serializedKey, serializedValue, cluster);
………………
}
进入waitOnMetadata方法源码,可以看到这里的逻辑主要是判断metadata中的元数据信息是否需要更新,当需要更新时,则通过do-while循环进行更新,其中核心部分是通过**metadata.awaitUpdate()**方法阻塞当前线程,等待Sender线程向远程服务器发起元数据更新请求,直到远程服务器返回了新的元数据信息才唤醒当前线程,最终返回最新的cluster元数据信息。
private ClusterAndWaitTime waitOnMetadata(String topic, Integer partition, long maxWaitMs) throws InterruptedException {
//通过metadata获取cluster信息, metadata之前已经在KafkaProducer构造方法中获取到
Cluster cluster = metadata.fetch();
……………………
//将topic加入到metadata中进行维护
metadata.add(topic);
//从cluster信息中获取topic的分区数
Integer partitionsCount = cluster.partitionCountForTopic(topic);
//如果partitionsCount不为空则说明metadata中已经维护了该topic的元数据,并且需要更新的分区号未定义或者在已知的分区范围内
//则直接返回metadata中的cluster信息
if (partitionsCount != null && (partition == null || partition < partitionsCount))
return new ClusterAndWaitTime(cluster, 0);
………………
//如果metadata中没有维护该topic的元数据,或者需要更新的分区号是新的时,则进行metadata的更新。
//do-while循环更新
do {
…………
//将topic加入到metadata中进行维护
metadata.add(topic);
//获取当前元数据版本号
int version = metadata.requestUpdate();
//唤醒sender线程
sender.wakeup();
try {
//阻塞等待元数据更新结束
metadata.awaitUpdate(version, remainingWaitMs);
} catch (TimeoutException ex) {
……………………
}
//拿到更新后的集群信息
cluster = metadata.fetch();
elapsed = time.milliseconds() - begin;
//检测超时时间
if (elapsed >= maxWaitMs) {
……………………
}
……………………
} while (partitionsCount == null || (partition != null && partition >= partitionsCount));
//返回更新后的cluster信息
return new ClusterAndWaitTime(cluster, elapsed);
}
3、Serializer序列化器
Kafka发送的消息是在网络上进行传输,所以,doSend方法还会通过keySerializer和valueSerializer将我们的消息进行序列化。producer端需要序列化,consumer端需要反序列化。下面是doSend方法中涉及到消息序列化的代码部分,其余部分省略。
private Future doSend(ProducerRecord<K, V> record, Callback callback) {
………………
byte[] serializedKey;
try {
//使用keySerializer将key进行序列化
serializedKey = keySerializer.serialize(record.topic(), record.headers(), record.key());
} catch (ClassCastException cce) {
………………
}
byte[] serializedValue;
try {
//使用valueSerializer将value进行序列化
serializedValue = valueSerializer.serialize(record.topic(), record.headers(), record.value());
} catch (ClassCastException cce) {
………………
}
………………
}
4、Partitioner分区器
我们的消息最终都会发往一个合适的分区,如果我们在ProducerRecord消息记录中已经给partition字段指定好了分区号,那么将会优先选择此分区,否则将会通过**partitioner.partition()**方法为我们选择一个合适的分区。下面是doSend方法中涉及到计算分区的代码部分,其余部分省略。
private Future doSend(ProducerRecord<K, V> record, Callback callback) {
………………
//计算分区
int partition = partition(record, serializedKey, serializedValue, cluster);
………………
}
进入partition方法。
private int partition(ProducerRecord<K, V> record, byte[] serializedKey, byte[] serializedValue, Cluster cluster) {
//获得ProducerRecord中的partition字段值
Integer partition = record.partition();
//如果ProducerRecord中partition字段已经设置了分区号,则直接返回该分区号,否则调用分区器进行计算合适的分区号
return partition != null ?
partition :
partitioner.partition(
record.topic(), record.key(), serializedKey, record.value(), serializedValue, cluster);
}
好家伙,里面还有个partition方法,继续进入核心的**partitioner.partition()**方法:
public int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster) {
//从cluster中获取topic的分区信息
List partitions = cluster.partitionsForTopic(topic);
//获得分区数量
int numPartitions = partitions.size();
//如果消息没有key
if (keyBytes == null) {
//递增counter,用于后面取模运算
int nextValue = nextValue(topic);
//选择availablePartitions
List availablePartitions = cluster.availablePartitionsForTopic(topic);
if (availablePartitions.size() > 0) {
int part = Utils.toPositive(nextValue) % availablePartitions.size();
return availablePartitions.get(part).partition();
} else {
//返回一个不可用的分区
return Utils.toPositive(nextValue) % numPartitions;
}
} else {
// 如果消息有key的情况
return Utils.toPositive(Utils.murmur2(keyBytes)) % numPartitions;
}
}
最后来总结下**partitioner.partition()**方法的流程:
1、首先是通过cluster获取到topic的分区信息,从而获得分区数量。
2、接下来会有两种情况:当我们发送的消息没有key和有key两种情况。
**(1)消息没有key时:**先通过nextValue()方法递增counter返回一个int型的变量给nextValue,然后获取该topic可用的分区存入list中,如果可用分区数大于0,则将刚才的nextValue和可用分区数取模运算,最后得出分区号结果;如果可用分区数小于等于0,则返回一个不可用的分区。
**(2)消息有key时:**获取key的hash值然后和分区数进行取模运算,得出分区号结果。
5、追加消息到RecordAccumulator消息累加器
最后doSend方法会将我们的消息追加到accumulator消息累加器中,然后唤醒Sender线程。下面是doSend方法中涉及到追加消息入RecordAccumulator的代码部分,其余部分省略。
private Future doSend(ProducerRecord<K, V> record, Callback callback) {
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数同学面临毕业设计项目选题时,很多人都会感到无从下手,尤其是对于计算机专业的学生来说,选择一个合适的题目尤为重要。因为毕业设计不仅是我们在大学四年学习的一个总结,更是展示自己能力的重要机会。
因此收集整理了一份《2024年计算机毕业设计项目大全》,初衷也很简单,就是希望能够帮助提高效率,同时减轻大家的负担。
既有Java、Web、PHP、也有C、小程序、Python等项目供你选择,真正体系化!
由于项目比较多,这里只是将部分目录截图出来,每个节点里面都包含素材文档、项目源码、讲解视频
如果你觉得这些内容对你有帮助,可以添加VX:vip1024c (备注项目大全获取)
同学面临毕业设计项目选题时,很多人都会感到无从下手,尤其是对于计算机专业的学生来说,选择一个合适的题目尤为重要。因为毕业设计不仅是我们在大学四年学习的一个总结,更是展示自己能力的重要机会。**
因此收集整理了一份《2024年计算机毕业设计项目大全》,初衷也很简单,就是希望能够帮助提高效率,同时减轻大家的负担。
[外链图片转存中…(img-cBXJjEzt-1712526723254)]
[外链图片转存中…(img-ihYD7flO-1712526723255)]
[外链图片转存中…(img-jLzEvROh-1712526723255)]
既有Java、Web、PHP、也有C、小程序、Python等项目供你选择,真正体系化!
由于项目比较多,这里只是将部分目录截图出来,每个节点里面都包含素材文档、项目源码、讲解视频
如果你觉得这些内容对你有帮助,可以添加VX:vip1024c (备注项目大全获取)
[外链图片转存中…(img-Q0iXoML2-1712526723255)]