浅谈大数据里的Kafka （3）生产数据层面的分区策略

最新推荐文章于 2023-06-09 14:35:38 发布

gebilaozeng

最新推荐文章于 2023-06-09 14:35:38 发布

阅读量278

点赞数 2

分类专栏： Kafka 文章标签：大数据 kafka

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gebilaozeng/article/details/106043720

版权

Kafka 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

1）分区的原因

（1）为了方便在集群中扩展，每个Partition可以通过调整以适应它所在的机器，而一个topic又可以有多个Partition组成，因此整个集群就可以适应任意大小的数据了；
（2）可以提高并发，因为可以以Partition为单位读写（Partition多副本）

2）分区策略
首先生产者生产数据后需要发送数据，而发送的数据则会封装成ProducerRecord对象，ProducerRecord对象在new的时候可以加入如下参数:

ProducerRecord对象
（1）指明 partition 的情况下，直接将指明的值直接作为 partiton 值；

（2）没有指明 partition 值但有 key 的情况下，将 key 的 hash 值与 topic 的 partition 数进行取余得到 partition 值；

（3）既没有 partition 值又没有 key 值的情况下，第一次调用时随机生成一个整数（后面每次调用在这个整数上自增），将这个值与 topic 可用的 partition 总数取余得到 partition 值，以后的消息如果和这个消息处于同一个batch，则和它是同一个分区，否则会轮询分区。在长时间尺度上尽量保证均衡。

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
浅谈大数据里的Kafka （3）生产数据层面的分区策略

1）分区的原因（1）为了方便在集群中扩展，每个Partition可以通过调整以适应它所在的机器，而一个topic又可以有多个Partition组成，因此整个集群就可以适应任意大小的数据了；（2）可以提高并发，因为可以以Partition为单位读写（Partition多副本）2）分区策略首先生产者生产数据后需要发送数据，而发送的数据则会封装成ProducerRecord对象，ProducerRecord对象在new的时候可以加入如下参数: （1）指明 partition 的情况下，直接将
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。