Spark Streaming对Exactly Once的实现原理

最新推荐文章于 2022-05-05 09:40:11 发布

美伊小公主的奶爸

最新推荐文章于 2022-05-05 09:40:11 发布

阅读量5.8k

点赞数 2

分类专栏： spark 文章标签： spark streaming exactly once

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cymvp/article/details/52605987

版权

本文探讨了Spark Streaming如何实现Exactly Once语义，强调了系统整体性的重要性，包括输入源、Spark Streaming计算和输出操作的贡献。文章详细介绍了Spark Streaming的WAL（Write-Ahead Log）在防止数据丢失和failover中的作用，以及其无法解决job运行一半问题的挑战。总结指出，Spark Streaming的Exactly Once依赖于输入源、计算框架和输出操作的协同工作，而Kafka Direct API在确保一致性方面扮演关键角色。

摘要由CSDN通过智能技术生成

昨天看到了这篇文章: 为什么Spark Streaming + Kafka很难保证exactly once? 看过后，对作者对Exactly Once的理解不敢苟同，所以想写这篇文章，阐述一下我对Spark Streaming保证Exactly Once语义的理解。

Exactly Once实现的整体性

首先一个很重要的道理是: 整个系统对exactly once的保证，从来都不是靠系统中某一部分来实现就能搞定的，需要整个流式系统一起努力才可以实现。

对Spark Streaming来说, Exactly once的实现，需要系统中三部分的整体保证:

输入源 --> Spark Streaming计算 ---> 输出操作

"输入源"对于exactly once的实现: Kafka的directly API其实就是在解决输入源输入数据的exactly once语义;

"Spark Streaming"部分的exactly once的shi实现: 使用WAL保证(注意我没有提checkpoint和replication, 因为这两个failover机制，并不是专门解决exactly once这个问题的)。

"输出操作"对于exactly once的实现: 需要输出结果保证幂等性, 这点官方文档已经说的比较清楚:

In order to achieve exactly-once semantics for output of your results, your output operation that saves the

最低0.47元/天解锁文章

美伊小公主的奶爸

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。