Kafka生产者分区partition策略

最新推荐文章于 2024-03-10 15:45:23 发布

沐雨金鳞

最新推荐文章于 2024-03-10 15:45:23 发布

阅读量2.8k

点赞数 3

分类专栏：消息中间件文章标签： Kafka生产者分区策略

本文链接：https://blog.csdn.net/qq_38262266/article/details/107356824

版权

21 篇文章 0 订阅

订阅专栏

为什么要分区patition？

（1）方便在集群中扩展，每个 Partition 可以通过调整以适应它所在的机器，而一个 topic又可以有多个 Partition 组成，因此整个集群就可以适应任意大小的数据了；

（2）可以提高并发，因为可以以 Partition 为单位读写了。

怎么把数据放在不同的区？

1、我们需要将 producer 发送的数据封装成一个 ProducerRecord 对象。

2、我们看到Producer发送数据封装成对象时的参数，根据参数设定，我们就能将数据放在对应的partition中。

指明 partition 的情况下，直接将数据放在对应的 partiton ；
没有指明 partition 值但有 key 的情况下，将 key 的 hash 值与 topic 的 partition 数进行取余得到 partition 值；
既没有 partition 值又没有 key 值的情况下，第一次调用时随机生成一个整数（后面每次调用在这个整数上自增），将这个值与 topic 可用的 partition 总数取余得到 partition 值，也就是常说的 round-robin 算法。

1. 问题

比如说我们建了一个 topic，有三个 partition。
生产者在写的时候，其实可以指定一个 key，比如说我们指定了某个订单 id 作为 key，那么这个订单相关的数据，一定会被分发到同一个 partition 中去，而且这个 partition 中的数据一定是有顺序的。
消费者从 partition 中取出来数据的时候，也一定是有顺序的。到这里，顺序还是 ok 的，没有错乱。

接着，我们在消费者里可能会搞多个线程来并发处理消息。因为如果消费者是单线程消费处理，而处理比较耗时的话，比如处理一条消息耗时几十 ms，那么 1 秒钟只能处理几十条消息，这吞吐量太低了。而多个线程并发跑的话，顺序可能就乱掉了。

2. 解决方案

一个 topic，一个 partition，一个 consumer，内部单线程消费，单线程吞吐量太低，一般不会用这个。
写 N 个内存 queue，具有相同 key 的数据都到同一个内存 queue；然后对于 N 个线程，每个线程分别消费一个内存 queue 即可，这样就能保证顺序性。

关注