Structured Streaming总结

最新推荐文章于 2022-06-06 12:01:49 发布

dCHENz

最新推荐文章于 2022-06-06 12:01:49 发布

阅读量792

点赞数

分类专栏：大数据文章标签：大数据 hadoop kafka spark结构化流

dongchenze

本文链接：https://blog.csdn.net/e699a8/article/details/107548974

版权

本文介绍了Spark的Structured Streaming，将其与Spark Streaming对比，并展示了如何读取Socket数据、目录下文本数据，以及整合Kafka和MySQL的示例。Structured Streaming基于Spark SQL，将实时计算静态化，支持窗口计算和SQL查询，适用于无边界、无序数据源的实时处理。

摘要由CSDN通过智能技术生成

写在前面

晚上好我是啊晨，一个大数据分享者
今天说一下Spark的Structured Streaming，工作中据我了解不是很多，但也有使用。
毕竟是微批处理的，做标准实时的话，还要看flink。
如有需要flink文章请阅读我的其它大数据文章，谢谢
中间有什么问题请留言，请珍惜现在的时间：

在这里插入图片描述

关于介绍

这个建议大家看官网，写的非常详细，毕竟官网学习还是很有效率的。官网

这里简单介绍：

Structured Streaming翻译就是结构化流，相当于把sparksql实时化了，底层基于sparksql。

对无边界，无序的数据源，允许按数据本身的特征进行窗口计算，得到基于事件发生时间的有序结果，并能在准确性、延迟程度和处理成本之间调整。

Structured Streaming最核心的思想就是将实时到达的数据看作是一个不断追加的unbound table无界表，到达流的每个**数据项(RDD)**就像是表中的一个新行被附加到无边界的表中.这样用户就可以用静态结构化数据的批处理查询方式进行流计算，如可以使用SQL对到来的每一行数据进行实时查询处理，官网图解：
在这里插入图片描述

API

1.Spark Streaming 时代 -DStream-RDD
Spark Streaming 采用的数据抽象是DStream，而本质上就是时间上连续的RDD，对数据流的操作就是针对RDD的操作
在这里插入图片描述
2.Structured Streaming 时代 - DataSet/DataFrame -RDD
Structured Streaming是Spark2.0新增的可扩展和高容错性的实时计算框架，它构建于Spark SQL引擎，把流式计算也统一到DataFrame/Dataset里去了。
Structured Streaming 相比于 Spark Streaming 的进步就类似于 Dataset 相比于 RDD 的进步

在这里插入图片描述

主要学习

一些参数详情大家可以参考官网，这里只是说了一般常用到的

读取Socket数据

整体流程大概是这样的：创建session-接收数据-处理数据-输出结果

package cn.spark.structedstreaming

import org.apache.spark.SparkContext
import org.apache.spark.sql.streaming.Trigger
import org.apache.spark.sql.{
   DataFrame, Dataset, Row, SparkSession}

object WordCount {
   
  def main(args: Array[String]): Unit = {
   
    //1.创建SparkSession,因为StructuredStreaming的数据模型也是DataFrame/DataSet
    val spark: SparkSession = SparkSession.builder().master("local[*]").appName("SparkSQL").getOrCreate()
    val sc: SparkContext = spark.sparkContext
    sc.setLogLevel("WARN")
    //2.接收数据
    val dataDF: DataFrame = spark.readStream
      .option("host", "node01")
      .option("port", 9999)
      .format("socket")
      .load()
    //3.处理数据
    import spark.implicits._
    val dataDS: Dataset[String] = dataDF.as[String]
    val wordDS: Dataset[String] = dataDS.flatMap(_.split(" "))
    val result: Dataset[Row] = wordDS.groupBy("value").count().sort($"count".desc)
    //result.show()
    //Queries with streaming sources must be executed with writeStream.start();
    result.writeStream
      .format("console")//往控制台写
      .outputMode("complete")//每次将所有的数据写出
      .trigger(Trigger.ProcessingTime(0))//触发时间间隔,0表示尽可能的快
      //.option("checkpointLocation","./ckp")//设置checkpoint目录,socket不支持数据恢复,所以第二次启动会报错,需要注掉
      .