什么是 end-to-end exactly-once ?

最新推荐文章于 2024-01-31 09:13:33 发布

王知无(import_bigdata)

最新推荐文章于 2024-01-31 09:13:33 发布

阅读量448

点赞数

大数据成神之路同时被 2 个专栏收录

254 篇文章 157 订阅

订阅专栏

20 篇文章 4 订阅

订阅专栏

福利部分：《大数据成神之路》大纲

大数据成神之路

《几百TJava和大数据资源下载》

[A] 一般我们把上游数据源 (Source) 看做一个 end，把下游数据接收 (Sink) 看做另一个 end：

Source  -->  Spark Streaming  -->  Sink
 [end]                             [end]

目前的 Spark Streaming 处理过程自身是 exactly-once 的，而且对上游这个 end 的数据管理做得也不错（比如在 direct 模式里自己保存 Kafka 的偏移），但对下游除 HDFS 外的如 HBase, MySQL, Redis 等诸多 end 还不太友好，需要 user code 来实现幂等逻辑、才能保证 end-to-end 的 exactly-once。

而在 Spark 2.0 引入的 Structured Streaming 里，将把常见的下游 end 也管理起来（比如通过 batch id 来原生支持幂等），那么不需要 user code 做什么就可以保证 end-to-end 的 exactly-once 了，请见下面一张来自 databricks 的 slide[1]:

[1] Reynold Xin (Databricks), "the Future of Real-time in Spark", 2016.02, http://www.slideshare.net/rxin/the-future-of-realtime-in-spark.

福利部分：
《大数据成神之路》大纲

大数据成神之路shimo.im

《几百TJava和大数据资源下载》

资源下载shimo.im

王知无(import_bigdata)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。