Spark学习笔记：Spark Streaming流计算引擎

ASKED_2019

已于 2022-07-11 14:02:11 修改

阅读量413

点赞数

分类专栏：大数据文章标签： spark 学习大数据

于 2022-07-08 10:57:47 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42223090/article/details/125671841

版权

大数据专栏收录该内容

11 篇文章 1 订阅

订阅专栏

1. Spark Streaming 结构

spark streaming treat a stream of data as a table to which data is continuously appended
在这里插入图片描述

2.Spark计算引擎两种模式

2.1 两种模式

Batch mode微批处理
Continues mode流处理
Batch mode按照一定的时间间隔进行处理，划分成batch，每一个batch生成一个spark job，包含若干个spark tasks，到spark sql和spark core进行计算执行。
Continues Mode
会生成一个long running job，实时的进行spark任务的作业

2.2 容错机制

容错，在任务中断后，流处理引擎有能力恢复任务，保证数据上的不重不漏，维持数据一致性。
从数据一致性角度出发，3种水平：

At most once，最多交付一次，存在漏数据的风险
At least once，最少交付一次，存在重复的风险
Exactly once，不重不漏

Batch mode：
依靠checkpoint机制进行容错处理，Checkpoint 机制会把该 Micro-batch 的元信息全部存储到开发者指定的文件系统路径，当出现作业或是任务失败时，引擎只需要读取这些事先记录好的元信息，就可以恢复数据流的“断点续传”。
Continues mode:
通过Epoch Marker进行容错处理，在引擎处理并交付数据的过程中，每当遇到 Epoch Marker 的时候，引擎都会把对应Epoch 中最后一条消息的 Offset 写入日志，从而实现容错

两者的区别

Batch mode吞吐量大，但是延迟稍高，s级
Conitues mode吞吐量小些，但是延迟低，可以达到ms级
目前而言，仅Batch mode模式支持聚合操作
在容错机制上，batch mode依靠checkpoint进行断点记录，流入数据先记录在checkpoint处，再进行处理；continues mode使用Epoch Marker记录上一次处理节点，异步记录延迟更低

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark学习笔记：Spark Streaming流计算引擎

spark 流计算
复制链接

扫一扫

专栏目录

ASKED_2019 CSDN认证博客专家 CSDN认证企业博客

码龄6年

45: 原创

11万+: 周排名

3万+: 总排名

8万+: 访问

: 等级

757: 积分

16: 粉丝

53: 获赞

16: 评论

251: 收藏

私信

关注

热门文章

分类专栏

数据分析numpy&pandas 11篇
大数据 11篇
python 22篇
RecSys 4篇
MACHINE LEARNING 6篇
linux 1篇
AI 3篇
spotfire 2篇
算法与数据结构 1篇
ORACLE 5篇
读书

最新评论

python bisect 二分算法工具以及应用
CSDN-Ada助手: 不知道算法技能树是否可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
关于loguru一次错误排查记录
ASKED_2019: 感谢大佬回复，大佬开发的也用过
关于loguru一次错误排查记录
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh_CN/latest 使用原生 loggng封装，兼容性和替换性100%。 1、日志能根据级别能够自动变彩色。 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。相比 loguru 有10胜。 pip install nb_log 。
调参神器optuna学习笔记
sky_blue__: 设置固定的随机种子试试
调参神器optuna学习笔记
qq_41025820: 博主你好请问一下我用r2作为目标函数的返回值进行参数寻优将参数结果放到模型中跑得出的r2指数跟寻优时返回的r2指数不一样是什么原因导致的呢

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。