在Kubernetes上运行Kafka合适吗？

最新推荐文章于 2024-08-07 10:18:36 发布

Docker_

最新推荐文章于 2024-08-07 10:18:36 发布

阅读量663

点赞数

本文链接：https://blog.csdn.net/M2l0ZgSsVc7r69eFdTj/article/details/90815736

版权

本文探讨了在Kubernetes上运行Kafka的可能性。Kafka集群的每个broker和ZooKeeper服务器被设计为在单独的Pod中运行，利用StatefulSet来维护有序性和唯一性。Headless Services允许客户端直接与特定实例通信，而持久卷确保数据的非本地持久化。参考链接提供了Kafka在Kubernetes中的配置示例和基准测试。

摘要由CSDN通过智能技术生成

640?wx_fmt=jpeg

介绍

640?wx_fmt=png

Kubernetes设计的初衷是运行无状态工作负载。这些通常采用微服务架构的工作负载，是轻量级，可水平扩展，遵循十二要素应用程序，可以处理环形断路和随机Monkey测试。
另一方面，Kafka本质上是一个分布式数据库。这意味着你必须处理状态，它比微服务更重量级。Kubernetes支持有状态的工作负载，但你必须谨慎对待它，正如Kelsey Hightower在最近的两条推文中指出的那样：

640?wx_fmt=jpeg

现在你应该在Kubernetes上运行Kafka吗？我的反问是：没有它，Kafka会跑得更好吗？这就是为什么我要指出Kafka和Kubernetes之间的相互补充性以及你可能遇到的陷阱。

运行时

640?wx_fmt=png

让我们先看一下基本的东西——运行时本身。
进程
Kafka brokers对CPU很友好。TLS可能会引入一些开销。如果Kafka客户端使用加密，则需要更多CPU，但这不会影响brokers。
内存
Kafka brokers是内存消耗大户。JVM堆通常可以限制为4-5 GB，但由于Kafka大量使用页面缓存，因此还需要足够的系统内存。在Kubernetes中，可以相应地设置容器资源限制和请求。
存储
容器中的存储是短暂的——重启后数据将丢失。可以对Kafka数据使用emptyDir卷，这将产生相同的效果：brokers的数据将在停机后丢失。您的消息在其他broker上作为副本还是可以使用的。因此，重新启动后，失败的broker必须得复制所有的数据，这可能是一个耗时过程。
这就是你应该使用持久存储的原因。使用XFS或ext4的非本地持久性块存储更合适。我警告你：不要使用NFS。NFS v3和v4都不会起作用。简而言之，Kafka broker会因为NFS“愚蠢重命名”问题而无法删除数据目录，自行终止。如果你仍然不相信我，那么请仔细阅读这篇博文[1]。存储必须是非本地的，以便Kubernetes在重新启动或重新定位时可以更灵活地选择另一个节点。
网络
与大多数分布式系统一样，Kafka性能在很大程度上取决于低网络延迟和高带宽。不要试图将所有代理放在同一节点上，因为这会降低可用性。如果Kubernetes节点出现故障，那么整个Kafka集群都会出现故障。不要跨数据中心扩展Kafka集群。这同样适用于Kubernetes集群。不同的可用区域是一个很好的权衡。