kafka元语实现

最新推荐文章于 2024-04-19 00:32:55 发布

pengshuai128

最新推荐文章于 2024-04-19 00:32:55 发布

阅读量344

点赞数

分类专栏： Kafka

本文链接：https://blog.csdn.net/pengshuai128/article/details/70807855

版权

1 篇文章 0 订阅

订阅专栏

如何确保非极端环境下，Kafka 不丢数据，以及 Kafka 集群尽可能稳定呢？

Producer 端设置 ack 为 all（或者说尽可能越多越好，但实际生产里集群实例过多，这样设置会影响性能，因此根据具体情况来定），即确保所有 replication 都拿到数据的时候，send 方法才得以返回，以此来判断数据是否发送成功，那么理论上来说，此时发送成功的数据都不会丢失；
unclean.leader.election.enable 设置为 false（默认参数为 true），意思是，当存有你最新一条记录的 replication 宕机的时候，Kafka 自己会选举出一个主节点，如果默认允许还未同步你最新数据的 replication 所在的节点被选举为主节点的话，你的数据将会丢失，因此这里应该按需将参数调控为 false；
auto.offset.reset 参数设置为 earliest 避免出现 offset 丢失的时候，跳过需要消费的数据的情况，准确来说这里并非丢失，即使因为参数配置的问题出现跳过的情况，也可以通过前置 offset 找回历史消息；
数据持久化的时间需要设置业务足够接受的程度，我自己业务上使用就是能保证我的数据持久化时间为8个小时，超过8个小时的数据将被清空。

每一个框架被设计的时候，都有考虑特定的使用场景的，比如Kafka就比较适合高吞吐量并且允许少量数据丢失的场景，所以一定要根据应用业务和使用场景来做技术选型。Kafka默认实现是至少一次消费数据。如果设置生产者为异步发送数据，或者设置ack为0或1会加快速度就变成了最多一次的元语了

关注