Producer消息发送机制

最新推荐文章于 2024-01-22 09:00:00 发布

taoy86

最新推荐文章于 2024-01-22 09:00:00 发布

阅读量359

点赞数

分类专栏： kafka 文章标签： kafka

原文链接：https://blog.csdn.net/u011598442/article/details/105501752

版权

kafka 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

1、Producer架构

Kafka生产端发送数据过程涉及到序列化器Serializer、分区器Partitioner，消息缓存池Accumulator，还可能会涉及到拦截器Interceptor（这部分暂不做介绍）。

2、客户端与数据结构

2.1 新旧Producer

Kafka 0.8.2引入了新版本Producer客户端，并自0.9.0版本开始稳定并建议生产使用，新版本Producer是o.a.k.clients.producer.KafkaProducer，见：

//新版本Producer
org.apache.kafka.clients.producer.KafkaProducer<K,V>
//旧版本Producer
kafka.javaapi.producer.Producer<K,V>

新旧版本Producer有点不同：

一是连接Kafka方式上，旧版本连接的是Zookeeper，而新版本Producer连接的则是Broker；

二是新版本Producer采用异步方式发送消息，与之前同步发送消息相对性能上大幅提升。

2.2 消息数据结构

Kafka将一条待发送的消息抽象为ProducerRecord对象，其数据结构是：

public class ProducerRecord<K, V> {

    private final String topic; //目标topic

    private final Integer partition; //目标partition

    private final Headers headers;//消息头信息

    private final K key;   //消息key

    private final V value; //消息体

    private final Long timestamp; //消息时间戳

    //省略构造方法与成员方法

}

目前消息结构包括6个核心属性，其中headers属性是Kafka 0.11.x 版本引入的，可以用它存储一些应用或业务相关的信息。

3、序列化机制

3.1 序列化与反序列化

Producer发送消息要通过序列化器（Serializer）将消息对象转换成字节数组，才能通过网络传输到服务端，消费端则需要通过反序列化器（Deserializer）从服务端拉取字节数组转成消息对象。可以用下图表示：

生产端使用序列化器的方式非常简单，只要指定key.serializer与value.serializer即可，如下示例：

props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");

消费端使用的反序列化器要和生产端的序列化器要一一对应，否则将无法解析出想要的数据。

3.2 默认序列化器

目前Kafka提供了十几张序列化器，常见的序列化器有：

ByteArraySerializer // 序列化Byte数组，本质上什么都不用做。
ByteBufferSerializer // 序列化ByteBuffer。
BytesSerializer // 序列化Kafka自定义的Bytes类。
StringSerializer // 序列化String类型。
LongSerializer // 序列化Long类型。
IntegerSerializer // 序列化Integer类型。
ShortSerializer // 序列化Short类型。
DoubleSerializer // 序列化Double类型。
FloatSerializer // 序列化Float类型。

除了使用Kafka自带的序列化器，我们也可以自定义序列化器，只要实现Kafka Serializer接口并实现序列化逻辑即可，不过一般自带序列化器已经够用了。

4、消息分区机制

4.1 Topic分区

分区即partition是Kafka中非常重要的概念，分区的作用主要是为Kafka提供负载均衡的能力，同时也是Kafka高吞吐量的保证。生产端要将数据发送到具体topic的某一个分区中，并且消息只在分区内有序。

4.2 分区器

消息通过send方法发送过程中，可能会经过分区器（Partitioner）的作用才能发往broker端。如果消息ProducerRecord中指定了partition字段，那么就不需要分区器的作用，因为partition代表的就是所要发往的分区号。

Kafka提供了默认分区器o.a.k.clients.producer.internals.DefaultPartitioner，并通过其partition()定义主要的分区分配逻辑。

4.3 分区策略

所谓分区策略就是决定消息发往具体分区所采用的算法或逻辑。目前Kafka主要提供两种分区策略：哈希策略与轮询策略。

当没有为消息指定key即key为null时，消息会以轮询的方式发送到各个分区（各个版本实现可能不一样，还有一种随机策略，有待考证）；当key不为null时，默认分区器会使用key的哈希值（采用Murmur2Hash算法）对partition数量取模，决定要把消息发送到哪个partition上。

5、消息缓冲池

5.1 缓存池介绍

生产端ProducerRecord经过序列化器、分区器处理后，并不是直接发往broker端，而是发送到客户端的消息缓冲池（Accumulator）中，最后交由Sender线程发往broker端。

缓冲池最大大小由参数buffer.memory控制，默认是32M，当生产消息的速度过快导致buffer满了的时候，将阻塞max.block.ms时间，超时抛异常，所以buffer的大小可以根据实际的业务情况进行适当调整。

5.2 批量发送

发送到缓冲池中消息将会被分为一个一个的batch，分批次的发送到broker 端，批次大小由参数batch.size控制，默认16KB。这就意味着正常情况下消息会攒够16KB时才会批量发送到broker端，所以一般减小batch大小有利于降低消息延时，增加batch大小有利于提升吞吐量。

但是消息并不是必须要达到一个batch尺寸才会批量发送到服务端呢，Producer端提供了另一个重要参数linger.ms，用来控制batch最大的空闲时间，超过该时间的batch也会被发送到broker端

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

taoy86 CSDN认证博客专家 CSDN认证企业博客

码龄18年

2: 原创

18万+: 周排名

225万+: 总排名

38万+: 访问

: 等级

2162: 积分

75: 粉丝

264: 获赞

33: 评论

1025: 收藏

私信

关注

分类专栏

jvm调优 4篇
AB实验 10篇
java基础 8篇
Mybatis 1篇
大数据 2篇
Java并发 4篇
缓存 4篇
JVM 8篇
架构 18篇
Redis 13篇
flume 3篇
网络 11篇
kafka 13篇
Tomcat 4篇
Mysql 17篇
基础知识 18篇
spring 5篇
Guava 7篇
机器学习 1篇

最新评论

1.什么是显著性检验？ 2.为什么要做显著性检验？ 3.怎么做显著性检验？
喆511: 博主牛批
1.什么是显著性检验？ 2.为什么要做显著性检验？ 3.怎么做显著性检验？
南边的阿金: ”即便杭州分公司的销售额平均值大于北京分公司的销售额平均值仍然不能说明杭州分公司的销售额一定就大于北京分公司的销售额“ --这个举例的我觉得不太对，销售额就是求总吧，我觉得应该说是销售额概率分布不一定相同？
nginx中健康检查(health_check)机制深入分析
TwoCiYuan: fail_timeout=40s，原来是失败后40s内不用这个服务器，我一直以为是别的意思
Java JUnit 单元测试小结
CSDN-Ada助手: 非常感谢您分享关于Java JUnit单元测试的小结，我觉得这篇博客非常实用。如果您感兴趣的话，我建议您可以写一篇关于如何使用Mockito进行单元测试的技术博文。Mockito是一个非常流行的Java测试框架，通过使用Mockito，可以轻松地模拟测试对象的行为，并且能够更好地进行单元测试。相信这样的技术文章对其他用户也会非常有帮助。期待您的下一篇博客！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
一种多层级机构数据库表设计的思路
不让我抬杠，那我拿什么理智？: 这种level存储方式，不是很常见的设计

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。