sparkStreaming必用的sparkStreamingContext，Dsteam和Receiver

最新推荐文章于 2022-06-20 19:42:33 发布

数据china

最新推荐文章于 2022-06-20 19:42:33 发布

阅读量993

点赞数

分类专栏： streaming

本文链接：https://blog.csdn.net/qq_35138768/article/details/51517558

版权

streaming 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

图示：

1.InputDstream -->Transformation Dstream (生成dstream的有向无环图即Dstream的DAG，它会在时间的驱动下转换为rdd的DAG实现job的提交)-->outputStream

sparkStreamingContext：

整个流式程序的入口。它提供了用于创建[[org.apache.spark.streaming.dstream.DStream]方法的各种源。它可以是通过从org.apache.spark.SparkConf提供spark主URL和appname创建配置（请参阅核心spark文档），或从现有org.apache.spark.SparkContext。相关的SparkContext可以使用context.sparkContext进行访问。后创建和转化DStreams，流计算可以被启动和停止使用context.start（）和context.stop（）。context.awaitTermination（）使当前线程等待终止。

Dstreaming：

离散化流（DSTREAM）是sparkrdd的基本抽象，是一个持续的表示连续的数据流RDDS序列（见org.apache.spark.rdd.RDD）。DStreams既可以创建从实时数据（例如，从TCP端口，kafka，flume等），使用[[org.apache.spark.streaming.StreamingContext]或它可以通过生成使用转换操作，如`map`现有DStreams，`window`和`reduceByKeyAndWindow`。Spark Streaming程序运行时，每个DSTREAM定期生成一个RDD，无论是从实时数据或通过变换由产生的RDD父DSTREAM。

这个类包含了所有可用的DStreams的基本操作，如`map`，`filter`和`window`。此外，[[org.apache.spark.streaming.dstream.PairDStreamFunctions]]包含仅在键 - 值对DStreams操作，如`groupByKeyAndWindow`和`join`DStreams内部的特征在于一些基本属性：