Kafka基础（二）

最新推荐文章于 2024-01-07 05:34:22 发布

Mr_Faker

最新推荐文章于 2024-01-07 05:34:22 发布

阅读量154

点赞数

分类专栏： Kafka

本文链接：https://blog.csdn.net/Faker_Wang/article/details/111031457

版权

Kafka 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

一、Kafka分区

Kafka 的消息组织方式实际上是三级结构：主题 - 分区 - 消息。主题下的每条消息只会保存在某一个分区中，而不会在多个分区中被保存多份。

分区的作用就是提供负载均衡的能力，或者说对数据进行分区的主要原因，就是为了实现系统的高伸缩性（Scalability）。不同的分区能够被放置到不同节点的机器上，而数据的读写操作也都是针对分区这个粒度而进行的，这样每个节点的机器都能独立地执行各自分区的读写请求处理。并且，我们还可以通过添加新的节点机器来增加整体系统的吞吐量。除了提供负载均衡这种最核心的功能之外，利用分区也可以实现其他一些业务级别的需求。

都有哪些分区策略？

如果要自定义分区策略，你需要显式地配置生产者端的参数partitioner.class。这个参数该怎么设定呢？方法很简单，在编写生产者程序时，你可以编写一个具体的类实现org.apache.kafka.clients.producer.Partitioner接口。这个接口也很简单，只定义了两个方法：
partition()和close()，通常你只需要实现最重要的partition 方法。

轮询策略
也称 Round-robin 策略，即顺序分配。比如一个主题下有3 个分区，那么第一条消息被发送到分区 0，第二条被发送到分区 1，第三条被发送到分区 2，以此类推。当生产第 41int partition(String topic, Object key, byte[] keyBytes复制代码
条消息时又会重新开始，即将其分配到分区 0。

轮询策略有非常优秀的负载均衡表现，它总是能保证消息最大限度地被平均分配到所有分区上，故默认情况下它是最合理的分区策略，也是我们最常用的分区策略之一。

随机策略
也称 Randomness 策略。所谓随机就是我们随意地将消息放置到任意一个分区上

本质上看随机策略也是力求将数据均匀地打散到各个分区，但从实际表现来看，它要逊于轮询策略，所以如果追求数据的均匀分布，还是使用轮询策略比较好。

按消息键保序策略
Kafka 允许为每条消息定义消息键，简称为 Key。这个 Key的作用非常大，它可以是一个有着明确业务含义的字符串，比如客户代码、部门编号或是业务 ID 等；也可以用来表征消息元数据。特别是在 Kafka 不支持时间戳的年代，在一些场景中，工程师们都是直接将消息创建时间封装进 Key 里面的。一旦消息被定义了 Key，那么你就可以保证同一个Key 的所有消息都进入到相同的分区里面，由于每个分区下的消息处理都是有顺序的，故这个策略被称为按消息键保序策略。
基于地理位置的分区策略
主要是为了解决跨机房调用rt问题方案。

Mr_Faker

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Kafka基础（二）

一、Kafka分区 Kafka 的消息组织方式实际上是三级结构：主题 - 分区 - 消息。主题下的每条消息只会保存在某一个分区中，而不会在多个分区中被保存多份。分区的作用就是提供负载均衡的能力，或者说对数据进行分区的主要原因，就是为了实现系统的高伸缩性（Scalability）。不同的分区能够被放置到不同节点的机器上，而数据的读写操作也都是针对分区这个粒度而进行的，这样每个节点的机器都能独立地执行各自分区的读写请求处理。并且，我们还可以通过添加新的节点机器来增加整体系统的吞吐量。除了提供负载均衡这
复制链接

扫一扫