（33）保证数据的精准一次性消费

最新推荐文章于 2023-10-18 01:57:57 发布

大数据开发工程师-宋权

最新推荐文章于 2023-10-18 01:57:57 发布

阅读量297

点赞数

分类专栏：实时数仓文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/song_quan_/article/details/119134694

版权

实时数仓专栏收录该内容

43 篇文章 10 订阅

订阅专栏

2.5.1 定义

➢

精确一次消费（Exactly-once）

是指消息一定会被处理且只会被处理一次。不多不少就一次处理。

如果达不到精确一次消费，可能会达到另外两种情况：

➢

至少一次消费（at least once）

主要是保证数据不会丢失，但有可能存在数据重复问题。

➢

最多一次消费（at most once）

主要是保证数据不会重复，但有可能存在数据丢失问题。

2.5.2 问题如何产生

➢ 数据何时会丢失

比如实时计算任务进行计算，到数据结果存盘之前，进程崩溃，假设在进程崩溃前 kafka

调整了偏移量，那么 kafka 就会认为数据已经被处理过，即使进程重启，kafka 也会从新的

偏移量开始，所以之前没有保存的数据就被丢失掉了。

➢ 数据何时会重复

如果数据计算结果已经存盘了，在 kafka 调整偏移量之前，进程崩溃，那么

kafka 会

认为数据没有被消费，进程重启，会重新从旧的偏移量开始，那么数据就会被 2

次消费，

又会被存盘，数据就被存了 2 遍，造成数据重复

如果同时解决了数据丢失和数据重复的问题，那么就实现了精确一次消费的语义了。

目前 Kafka 默认每 5 秒钟做一次自动提交偏移量，这样并不能保证精准一次消费

enable.auto.commit 的默认值是 true；就是默认采用自动提交的机制。

auto.commit.interval.ms 的默认值是 5000，单位是毫秒。

2.5.3 如何解决

(1) 策略一：利用关系型数据库的事务进行处理

出现丢失或者重复的问题，核心就是偏移量的提交与数据的保存，不是原子性的。如果

能做成要么数据保存和偏移量都成功，要么两个失败，那么就不会出现丢失或者重复了。

这样的话可以把存数据和修改偏移量放到一个事务里。这样就做到前面的成功，如果后

面做失败了，就回滚前面那么就达成了原子性，这种情况先存数据还是先修改偏移量没影响。

➢

好处

事务方式能够保证精准一次性消费

➢

问题与限制

◼

数据必须都要放在某一个关系型数据库中，无法使用其他功能强大的 nosql 数据

库

◼

事务本身性能不好

◼

如果保存的数据量较大一个数据库节点不够，多个节点的话，还要考虑分布式事务

的问题。分布式事务会带来管理的复杂性，一般企业不选择使用，有的企业会把分

布式事务变成本地事务，例如把 Executor 上的数据通过 rdd.collect 算子提取到

Driver 端，由 Driver 端统一写入数据库，这样会将分布式事务变成本地事务的单

线程操作，降低了写入的吞吐量

➢

使用场景

数据足够少（通常经过聚合后的数据量都比较小，明细数据一般数据量都比较大），并

且支持事务的数据库

(2) 策略二：手动提交偏移量+幂等性处理

我们知道如果能够同时解决数据丢失和数据重复问题，就等于做到了精确一次消费。那

就各个击破。

首先解决 数据丢失问题 ，办法 就是要等数据保存成功后再提交偏移量 ，所以就必须手工

来控制偏移量的提交时机。

但是如果数据保存了，没等偏移量提交进程挂了，数据会被 重复消费 。怎么办？那就要

把数据的保存做成幂等性保存。即同一批数据反复保存多次，数据不会翻倍，保存一次和保

存一百次的效果是一样的。如果能做到这个，就达到了幂等性保存，就不用担心数据会重复

了。

、

➢ 难点

话虽如此，在实际的开发中手动提交偏移量其实不难，难的是幂等性的保存，有的时候

并不一定能保证，这个需要看使用的数据库，如果数据库本身不支持幂等性操作，那只能优

先保证的数据不丢失，数据重复难以避免，即只保证了 至少一次消费的语义 。

一般有主键的数据库都支持幂等性操作 upsert。

➢ 使用场景

处理数据较多，或者数据保存在不支持事务的数据库上

大数据开发工程师-宋权

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
（33）保证数据的精准一次性消费

2.5.1 定义 ➢ 精确一次消费（Exactly-once）是指消息一定会被处理且只会被处理一次。不多不少就一次处理。如果达不到精确一次消费，可能会达到另外两种情况： ➢ 至少一次消费（at least once）主要是保证数据不会丢失，但有可能存在数据重复问题。 ➢ 最多一次消费（at most once）主要是保证数据不会重复，但有可能存在数据丢失问题。 2.5.2 问题如何产生 ➢ 数据何时会丢失比如实时计算任务进行计算，到数据结
复制链接

扫一扫

专栏目录

大数据开发工程师-宋权 CSDN认证博客专家 CSDN认证企业博客

码龄9年

308: 原创

4万+: 周排名

151万+: 总排名

27万+: 访问

: 等级

3608: 积分

205: 粉丝

99: 获赞

68: 评论

537: 收藏

私信

关注

热门文章

分类专栏

最新评论

Flink CDC数据同步
m0_61571350: 用流过去到了，可以直接计算吗？如果监控到更新或者删除的，要单独处理吗？直接会不会影响指标
FineBI产品简介
永久青铜: 我怎么没有你这个仪表板的样式
FineBI概述
Devil I'm: HAHA CIO
Sql Server CDC配置
爱吃冰的猫: 难道我有20个cdc表发生变动后只能逐个重新开启？这显然不符合实际使用啊
使用Flume消费Kafka数据到HDFS (亲测好用)
天地风雷水火山泽: 按照博客的启动命名执行后，这个flume停不下来，会自行启动？一旦ctrl+C退出后，它不久就会自行启动，这个怎么关闭？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大数据开发工程师-宋权 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。