spark streaming编程模型【更新中】

最新推荐文章于 2022-12-20 10:17:56 发布

Brad_Q1

最新推荐文章于 2022-12-20 10:17:56 发布

阅读量484

点赞数

本文链接：https://blog.csdn.net/Brad_Q1/article/details/87947403

版权

本文介绍了Spark Streaming作为准实时流处理的原理，重点讲解了Streaming Context的初始化、数据接收器（如QueueStream、HDFS Stream、Kafka）、DStream的概念及特性。通过实例展示了如何使用QueueStream进行数据处理，并探讨了DStream的转换操作如何映射到RDD操作上。

摘要由CSDN通过智能技术生成

spark streaming是准实时的一种流处理手段，其中核心在于较短时间间隔内持续运行。
其中主要包含以下几个模块，

streaming context
数据接收器(Reciever)
DStream
Transform数据转换处理模块
应用启动start

下面详细说明其中每一项
Streaming context
是用来初始化spark streaming的，类似于程序的入口。

在定义数据接收器Reciever的时候，需要设置相关的时间间隔参数，就是类似于多久spark streaming运行一次（比如一秒）

而接收器的类型也有多种，比如：

QueueStream(这个通常用来做实验）
hdfs Stream
kafka

先实验一下 QueueStream，这个是在内存中写入相关数据，然后spark streaming来处理：

import org.apache.spark.rdd.RDD
import org.apache.spark.streaming.{Seconds, StreamingContext}
val ssc = new StreamingContext(sc, Seconds(1))// 初始化streaming context，时间间隔为1s
val rddQueue = new Queue[RDD[Int]]()//创建一个类型Queue，其类型为Int类型的RDD

运行结果如下：

最低0.47元/天解锁文章

Brad_Q1

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
spark streaming编程模型【更新中】

spark streaming是准实时的一种流处理手段，其中核心在于较短时间间隔内持续运行。其中主要包含以下几个模块，streaming context数据接收器(Reciever)DStreamTransform数据转换处理模块应用启动start下面详细说明其中每一项...
复制链接

扫一扫