Spark Streaming---初步理解

最新推荐文章于 2024-10-31 12:05:59 发布

疯狂的程序猿88888

最新推荐文章于 2024-10-31 12:05:59 发布

阅读量403

点赞数

分类专栏： SparkStreaming 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012940753/article/details/51525094

版权

SparkStreaming 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

总论：SparkStreaming是一个流计算引擎，它会按照时间段来计算数据，比如每一秒钟计算一次数据，它是基于时间单位的，与内容无关

数据的来源：有很多，可以是日志数据，电商数据，app等，

架构：SparkStreaming 一般是和Kafka配合使用，熟悉Kafka的朋友都知道，Kafka是会把数据放到磁盘上的，所以当SparkStreaming与Kafka配合使用的时候就会本来把基于流的计算变成了基于磁盘的计算，即符合流式处理的需求，通过和Kafka配合还可以指定某一个时间段内的的数据的计算，如，计算半小时前的半个小时里面的数据

SparkStreaming是一个计算的框架，它会把你自己写的逻辑代码抓取过来，然后分析运行

SparkStreaming是基于RDD运行的嘛？

不是，因为流进来的数据是不断变化的，而RDD的数据却是不变的，但是Spark的核心就是RDD，也就是说Spark框架只认RDD，那么看来就是一个矛盾体了，所以如果业务逻辑写wordCount.print()是不会导致job的产生的，因为wordcount不是rdd的action，但是运行sparkStreaming的wordcount时候明显进行了计算，所以看出job的产生是基于框架来实现的，框架会定时每隔多长时间生成一个job，而job的产生是基于rdd的action，而我们写业务逻辑的时候写的是基于rdd的，所以说我们写的业务逻辑就是job的模板，模板会在特定的时空中产生一个实例，所以引出Dstream的概念，RDD的模板就是Dstream，Dstream里面是RDD，因为RDD之间有依赖关系，所以Dstream直接也有依赖关系

框架产生作业完全是由时间来决定的

疯狂的程序猿88888

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。