如何保证kafka无消息丢失

kafka无消息丢失的理解:

  Kafka 只对“已提交”的消息(committed message)做有限度的持久化保证。

“已提交”

  什么叫“已提交”的信息?当kafka的若干个broker成功的接收消息并写入日志文件后,他们会告诉生产者这条消息已成功提交。此时,这条消息才算已提交的消息。
  此处的若干个broker是要看你的配置,你对“已提交”的定义。你可以配置,只要有一个broker提交成功就算已提交,也可以设置所有broker提交成功才算已提交。

有限度的保证

  就像”地球不爆炸,我们不放假“一样,你要让kafka能做持久化保证,就必须保证有至少一个broker还可以运行。

消息丢失的情况:

生产者丢失数据。

  生产者丢失数据,应该是被抱怨最多的数据丢失场景了。当我们使用生产者向kafka集群发送了一条消息后,竟然发现消息没有被保存。此时我们就要骂他了。
  但是呢,这种情况其实是我们误会它了,接下来我们来分析原因:
  目前,kafka producer 是异步发送消息的,也就是如果你使用的是 producer.send(msg)这个API,那它会立即返回,不过此时你不能认为消息已发送成功。这个API是发送之后不管是否发送成功的。
  使用这种方式,有哪些情况会发生消息没有发送成功呢?原因有很多,例如网络抖动,消息根本没到broker端;或消息本身不合格导致broker拒收等。所以kafka这个锅背的冤呀。
  解决:要解决也不难,只需要让producer永远使用带有回调通知的发送API,就可以了。也就是使用producer.send(msg,callback)。它可以准确的告诉你你的消息是否真的提交成功了。

消费者程序丢失数据

  Consumer端丢失数据主要体现在要消费的数据不见了,Consumer程序有个“位移的概念”,表示的是这个Consumer当前消费到的Topic分区的位置。
在这里插入图片描述
  此处的位移类似我们看书时的书签。如果我们决定今天上午要看完前一百页,在看之前就把书签放到了100页的位置,但是我们有事,导致我们之看完了90页,之后再回来看的时候,90页到100页之间的数据我们就丢失了。
  同理,kafka的Consumer端的消息丢失就是这么回事。要解决也很简单:维持先消费消息(阅读),再更新位移(书签)的顺序即可。但是这样也出现了另一个问题:可能出现重复消费。
  Consumer除了上面的可能之外,还有一种可能导致消息丢失:使用多线程消费时,Consumer 程序自动地向前更新位移,如果某个线程意外终止了,没有完成工作,但是位移被提交了。就会出现数据丢失。
解决方式:如果是多线程异步处理消费消息,Consumer程序不要开启自动提交位移,而是要应用程序手动提交位移。

总结:

如何避免kafka消息丢失:
1:不要使用producer.send(msg),而是使用producer.send(msg,callback)。记住,一定要使用带有回调通知的send方法。
2:设置acks = all 。acks是Producer的一个参数,代表你对已提交”消息的定义。设置成all,代表所有副本Broker都接收到消息才算已提交。
3:设置retries为一个较大的值。他也是一个Producer的参数,对应自动重试。
4:设置unclean.leader.election.enable = false。broker端参数,此设置不允许落后太多的broker竞选Leader。
5:设置replication.factor>=3。broker端参数,此设置是让消息多保存几份。
6:设置min.insync.replicas > 1。broker端参数,控制消息至少写入一个副本才算“已提交”。
7:确保repliication.factor>min.insync.replicas。如果两者相等,那只要有一个副本挂掉整个分区就无法正常工作了。
8:确保消费完成再提交。将enable.auto.commit设置成false。并采用手动提交位移。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值