kafka的一些问题

最新推荐文章于 2023-01-06 09:03:39 发布

ZJ_2459

最新推荐文章于 2023-01-06 09:03:39 发布

阅读量290

点赞数

分类专栏： spark 文章标签： spark kafka

本文链接：https://blog.csdn.net/ZJ_2459/article/details/88303843

版权

本文探讨了Kafka在高并发下避免消息丢失和重复的策略，包括设置acks参数、幂等producer和事务。同时，讲解了Kafka保证数据一致性和可靠性的机制，如HW-HighWaterMark。在Kafka到Spark Streaming的数据整合中，通过WAL和checkpoint确保数据完整性，幂等操作和事务处理实现数据不重复消费。还对比了Kafka高阶和低阶消费者API的特点，高阶API提供消费组语义，低阶API需要手动管理offset和分区。

摘要由CSDN通过智能技术生成

1、kafka在高并发的情况下,如何避免消息丢失和消息重复?

消息丢失解决方案:
首先对kafka进行限速，其次启用重试机制，重试间隔时间设置长一些，最后Kafka设置acks=all，即需要相应的所有处于ISR的分区都确认收到该消息后，才算发送成功
消息重复解决方案:
使用唯一id标识，选择唯一主键存储到外部介质（Redis或者mongdb）中，先查询是否存在，若存在则不处理；若不存在，先插入Redis或Mongdb,再进行业务逻辑处理

2、kafka怎么保证数据消费一次且仅消费一次

幂等producer：保证发送单个分区的消息只会发送一次，不会出现重复消息
事务(transaction)：保证原子性地写入到多个分区，即写入到多个分区的消息要么全部成功，要么全部回滚
流处理EOS：流处理本质上可看成是“读取-处理-写入”的管道。此EOS保证整个过程（端到端）的操作是原子性。注意，这只适用于Kafka Streams

3、kafka保证数据一致性和可靠性

数据一致性保证
一致性定义：若某条消息对client可见，那么即使Leader挂了，在新Leader上数据依然可以被读到
HW-HighWaterMark: client可以从Leader读到的最大msg offset，即对外可见的最大offset， HW=max(replica.offset)
对于Leader新收到的msg，client不能立刻消费，Leader会等待该消息被所有ISR中的replica同步后，更新H

最低0.47元/天解锁文章

ZJ_2459

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
kafka的一些问题

1、kafka在高并发的情况下,如何避免消息丢失和消息重复?消息丢失解决方案:首先对kafka进行限速，其次启用重试机制，重试间隔时间设置长一些，最后Kafka设置acks=all，即需要相应的所有处于ISR的分区都确认收到该消息后，才算发送成功消息重复解决方案:使用唯一id标识，选择唯一主键存储到外部介质（Redis或者mongdb）中，先查询是否存在，若存在则不处理；若不存在，先插入...
复制链接

扫一扫