实现精确一次消费

一只特蕉

已于 2022-06-06 15:40:30 修改

阅读量245

点赞数

分类专栏：大数据面试题（java）文章标签： kafka 分布式数据库

于 2022-06-06 15:39:59 首次发布

本文链接：https://blog.csdn.net/qq_41527980/article/details/120373257

版权

10 篇文章 1 订阅

订阅专栏

本文探讨了Kafka偏移量管理在不同模式下的挑战，如自动提交、手动提交与事务的结合，以及如何通过双流join解决数据丢失和重复问题。重点介绍了使用Redis缓存、滑动窗口等技术来确保数据完整性和一致性。

摘要由CSDN通过智能技术生成

自动提交偏移量

每间隔5s消费者会自动从poll方法获得的最大的偏移量提交到主题中，再均衡之后可能出现重复消费和丢失数据的可能，

重复消费：

数据丢失：提交偏移量的周期要小于,消费者处理的时长，会出现数据的丢失

立即提交偏移量

enable.auto.commit=false使用commitSync()提交由poll方法返回的最新的偏移量，如果成功提交马上返回结果，提交失败就会跑出异常

enable.auto.commit=false使用commitASync()提交由poll方法返回的最新的偏移量，频繁提交在broker响应之前，应用程序会一直阻塞，降低了吞吐量，单一但发生再均衡的情况，会增加重复的数量

一步提交还有回调的功能

实现手动提交偏移量+幂等性操作

很难确定自动提交偏移量的时机、同步提交和异步提交会出现吞吐量的问题

抓取业务表的新增变化，用于制作实时统计；

原理：将自己伪装为slave，假装成从master中复制数据

流程：

将kafka中的数据读取处理进行分流写到kafka中。

将用户是否消费的状态保存到Hbase中；

漏洞
如果一个用户是首次消费，在一个采集周期中，这个用户下单了 2 次，那么就会
把这同一个用户都会统计为首单消费
解决办法
- 应该将同一采集周期的同一用户的最早的订单标记为首单，其它都改为非首单
- 同一采集周期的同一用户-----按用户分组（groupByKey） ü 最早的订单-----排序，取最早（sortwith）