如何找到 Kafka 集群的吞吐量极限？_kafka集群数量怎么定吞吐量级别-CSDN博客

本文链接：https://blog.csdn.net/qq_33814088/article/details/88064514

本文介绍了Dropbox团队如何通过自动化测试平台寻找Kafka集群的吞吐量极限。测试平台使用Spark与Kafka客户端进行流量生成与消费，通过调整不同参数如每秒消息数和消息大小来研究影响因素。主要关注IO线程空闲率和同步副本集变化作为过载指标。结果表明，Dropbox基础设施的最大吞吐量为每个broker 60MB/s，且此测试结果为保守估计，实际生产环境可能因消息压缩而提高。该测试平台为未来配置决策和性能优化提供了依据。

摘要由CSDN通过智能技术生成

Kafka 是非常流行的分布式流式处理和大数据消息队列解决方案，在技术行业已经得到了广泛采用，在 Dropbox 也不例外。Kafka 在 Dropbox 的很多分布式系统数据结构中发挥着重要的作用：数据分析、机器学习、监控、搜索和流式处理，等等。在 Dropbox，Kafka 集群由 Jetstream 团队负责管理，他们的主要职责是提供高质量的 Kafka 服务。他们的一个主要目标是了解 Kafka 在 Dropbox 基础设施中的吞吐量极限，这对于针对不同用例做出适当的配置决策来说至关重要。最近，他们创建了一个自动化测试平台来实现这一目标。这篇文章将分享他们所使用的方法和一些有趣的发现。

测试平台

上图描绘了本文所使用的测试平台的设置。我们在 Spark 中使用 Kafka 客户端，这样就可以以任意规模生成和消费流量。我们搭建了三个不同大小的 Kafka 集群，要调整集群大小，只需要将流量重定向到不同的集群。我们创建了一个 Kafka 主题，用于生成测试流量。为简单起见，我们将流量均匀地分布在 Kafka broker 之间。为实现这一目标，我们创建了测试主题，分区数量是 broker 数量的 10 倍，这样每个 broker 都是 10 个分区的首领。因为写入单个分区是串行的，所以如果每个 broker 的分区太少会导致写入竞争，从而限制了吞吐量。根据我们的实验，10 是一个恰到好处的数字，可以避免写入竞争造成吞吐量瓶颈。

由于基础设施的分布式特性，客户端遍布在美国的不同地区。因为测试流量远低于 Dropbox 网络主干的限制，所以我们可以安全地假设跨区域流量的限制也适用于本地流量。