Spark Streaming总结

最新推荐文章于 2022-09-12 15:44:16 发布

且听_风吟

最新推荐文章于 2022-09-12 15:44:16 发布

阅读量2.1k

点赞数 4

分类专栏： Spark源码解析｜如何成为一个committer 文章标签： Spark Streaming

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_26803795/article/details/81772265

版权

本文深入探讨Spark Streaming的本质，阐述其与Spark Core的关系，详细解析Spark Streaming的系统架构，包括系统组件、作业提交流程及窗口操作，并分析了Spark Streaming的容错机制，特别是Worker和Driver的容错策略。

摘要由CSDN通过智能技术生成

一、本质

Spark Streaming是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理

二、Spark Streaming和Spark Core

2.1 逻辑关系：

2.2 物理关系：

1) DStream：Spark Streaming提供了表示连续数据流的、高度抽象的被称为离散流的DStream

2) 任何对DStream的操作都会转变为对底层RDD的操作。

2.3 算子关系：

1) Spark Streaming 算子分为Transformation和Output

2) Transformation包括Spark中的Transform和部分的Action(Reduce、Count等)

3) Output:

• Print

• saveAsObjectFile、saveAsTextFile、saveAsHadoopFiles：将一批数据输出到Hadoop文件系统中，用批量数据的开始时间戳来命名

• forEachRDD：允许用户对DStream的每一批量数据对应的RDD本身做任意操作

2.4 DAG和DStream Gra

最低0.47元/天解锁文章

关注

4
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。