【Spark Streaming】Spark Streaming原理与介绍

最新推荐文章于 2024-05-10 22:51:01 发布

没去过埃及的法老

最新推荐文章于 2024-05-10 22:51:01 发布

阅读量439

点赞数

分类专栏： Sprak 文章标签： Spark Streaming spark 大数据 DStream 云计算/大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41369191/article/details/105976097

版权

Sprak 专栏收录该内容

24 篇文章 0 订阅

订阅专栏

目录

整体流程

Spark Streaming中，会有一个接收器组件Receiver，作为一个长期运行的task跑在一个Executor上。Receiver接收外部的数据流形成input DStream

DStream会被按照时间间隔划分成一批一批的RDD，当批处理间隔缩短到秒级时，便可以用于处理实时数据流。时间间隔的大小可以由参数指定，一般设在500毫秒到几秒之间。

对DStream进行操作就是对RDD进行操作，计算处理的结果可以传给外部系统。

Spark Streaming的工作流程像下面的图所示一样，接收到实时数据后，给数据分批次，然后传给Spark Engine（引擎）处理最后生成该批次的结果。

数据抽象

Spark Streaming的基础抽象是DStream（Discretized Stream），离散化数据流，连续不断的数据流)，代表持续性的数据流和经过各种Spark算子操作后的结果数据流

DStream本质上就是一系列时间上连续的RDD

对DStream的数据的进行操作也是按照RDD为单位来进行的

容错性

底层RDD之间存在依赖关系，DStream直接也有依赖关系，RDD具有容错性，那么DStream也具有容错性，如下，每一个椭圆形表示一个RDD，椭圆形中的每个圆形代表一个RDD中的一个Partition分区，每一列的多个RDD表示一个DStream(图中有三列所以有三个DStream)，每一行最后一个RDD则表示每一个Batch Size所产生的中间结果RDD

准实时性/近实时性

Spark Streaming将流式计算分解成多个Spark Job，对于每一时间段数据的处理都会经过Spark DAG图分解以及Spark的任务集的调度过程。对于目前版本的Spark Streaming而言，其最小的Batch Size的选取在0.5~5秒钟之间。所以Spark Streaming能够满足流式准实时计算场景，对实时性要求非常高的如高频实时交易场景则不太适合

总结

简单来说DStream就是对RDD的封装，你对DStream进行操作，就是对RDD进行操作，对于DataFrame/DataSet/DStream来说本质上都可以理解成RDD

没去过埃及的法老

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Spark Streaming】Spark Streaming原理与介绍

目录整体流程数据抽象总结整体流程 Spark Streaming中，会有一个接收器组件Receiver，作为一个长期运行的task跑在一个Executor上。Receiver接收外部的数据流形成input DStream DStream会被按照时间间隔划分成一批一批的RDD，当批处理间隔缩短到秒级时，便可以用于处理实时数据流。时间间隔的大小可以由参数指定，一般设在50...
复制链接

扫一扫

专栏目录

没去过埃及的法老 CSDN认证博客专家 CSDN认证企业博客

码龄7年

116: 原创

5万+: 周排名

214万+: 总排名

6万+: 访问

: 等级

1928: 积分

54: 粉丝

204: 获赞

63: 评论

137: 收藏

私信

关注

热门文章

分类专栏

linux 18篇
Yarn 5篇
Scala 5篇
Kylin 2篇
HadoopHA 2篇
HBase 3篇
Redis 7篇
Kafka 5篇
Sprak 24篇
数据仓库 2篇
Kettle 9篇
Impala 3篇
Hive 8篇
Azkaban 3篇
Hue 2篇
zookeeper 6篇
Flume 1篇
MapReduce 1篇
Sqoop 1篇
Hadoop 6篇
BigData 3篇

最新评论

【SparkSQL】SparkSQL与多数据源交互的操作
ctotalk: 挺好
Linux crontab 任务调度
ctotalk: 感谢分享，学以致用。
Hive面试题累积报表
qq_33663705: Select s1.userid,s1.mydate,s1.mycount,s2.sum from stu1 s1 join (SELECT m2.userId as userid,m2.mydate as mydate,SUM(m1.mycount) as sum FROM stu1 m1 JOIN stu1 m2 ON m1.userId = m2.userId WHERE m1.mydate <= m2.mydate GROUP BY m2.userId,m2.mydate) s2 on s1.userid=s2.userid and s1.mydate=s2.mydate;
Hive面试题累积报表
qq_33663705: 最后的MAX(m1.mycount)错了,假如下一个月比上一个月少的话,那这个MAX函数就不成立了.可以把算出的总结进行根据userid nad mydate再次自连接把小计给取出来.Select s1.userid,s1.mydate,s1.mycount,s2.sum from (select * from stu1 order by userid,mydate) s1 join (SELECT m2.userId as userid,m2.mydate as mydate,SUM(m1.mycount) as sum FROM stu1 m1 JOIN stu1 m2 ON m1.userId = m2.userId WHERE m1.mydate <= m2.mydate GROUP BY m2.userId,m2.mydate) s2 on s1.userid=s2.userid and s1.mydate=s2.mydate;
【Kylin】Kylin安装与部署
大数据梦想家: 很详细，点赞支持（｡ò ∀ ó｡）

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。