大数据开发：Spark Structured Streaming特性

最新推荐文章于 2022-01-17 19:10:46 发布

加米谷大数据张老师

最新推荐文章于 2022-01-17 19:10:46 发布

阅读量138

点赞数

分类专栏：大数据文章标签：大数据 spark apache spark

原文链接：http://www.dtinone.net/news/2883.html

版权

大数据专栏收录该内容

333 篇文章 14 订阅

订阅专栏

在Spark框架当中，早期的设计由Spark Streaming来负责实现流计算，但是随着现实需求的发展变化，Spark streaming的局限也显露了出来，于是Spark团队又设计了Spark Structured Streaming。今天的大数据开发分享，我们就主要来讲讲，Spark Structured Streaming特性。

大数据学习：Spark Structured Streaming特性

Spark Structured Streaming流处理

因为流处理具有如下显著的复杂性特征，所以很难建立非常健壮的处理过程：

一是数据有各种不同格式（Jason、Avro、二进制）、脏数据、不及时且无序；

二是复杂的加载过程，基于事件时间的过程需要支持交互查询，和机器学习组合使用；

三是不同的存储系统和格式（SQL、NoSQL、Parquet等），要考虑如何容错。

因为可以运行在Spark SQL引擎上，Spark Structured Streaming天然拥有较好的性能、良好的扩展性及容错性等Spark优势。除此之外，它还具备丰富、统一、高层次的API，因此便于处理复杂的数据和工作流。

Spark Structured Streaming对流的定义是一种无限表（unbounded table），把数据流中的新数据追加在这张无限表中，而它的查询过程可以拆解为几个步骤，例如可以从Kafka读取JSON数据，解析JSON数据，存入结构化Parquet表中，并确保端到端的容错机制。其中的特性包括：

支持多种消息队列，比如Files/Kafka/Kinesis等。

可以用join(),union()连接多个不同类型的数据源。

返回一个DataFrame，它具有一个无限表的结构。

用户可以按需选择SQL（BI分析）、DataFrame（数据科学家分析）、DataSet（数据引擎），它们有几乎一样的语义-和性能。

Spark Structured Streaming容错机制

在容错机制上，Structured Streaming采取检查点机制，把进度offset写入stable的存储中，用JSON的方式保存支持向下兼容，允许从任何错误点进行恢复。这样确保了端到端数据的exactly-once。

Spark Structured Streaming性能

在性能上，Structured Streaming重用了Spark SQL优化器和Tungsten引擎。

Structured Streaming隔离处理逻辑采用的是可配置化的方式（比如定制JSON的输入数据格式），执行方式是批处理还是流查询很容易识别。

在时间窗口的支持上，Structured Streaming支持基于事件时间（event-time）的聚合，这样更容易了解每隔一段时间发生的事情。同时也支持各种用户定义聚合函数（User Defined Aggregate Function，UDAF）。

另外，Structured Streaming可通过不同触发器间分布式存储的状态来进行聚合，状态被存储在内存中，归档采用HDFS的Write Ahead Log（WAL）机制。

当然，Structured Streaming还可自动处理过时的数据，更新旧的保存状态。因为历史状态记录可能无限增长，这会带来一些性能问题，为了限制状态记录的大小，Spark使用水印（watermarking）来删除不再更新的旧的聚合数据。允许支持自定义状态函数，比如事件或处理时间的超时，同时支持Scala和Java。

关于大数据开发，Spark Structured Streaming特性，以上就为大家做了简单的介绍了。Spark Structured Streaming的发展，在Spark的发展道路上是重要的一次调整，后续也值得持续关注。

加米谷大数据张老师

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据开发：Spark Structured Streaming特性

在Spark框架当中，早期的设计由Spark Streaming来负责实现流计算，但是随着现实需求的发展变化，Spark streaming的局限也显露了出来，于是Spark团队又设计了Spark Structured Streaming。今天的大数据开发分享，我们就主要来讲讲，Spark Structured Streaming特性。Spark Structured Streaming流处理因为流处理具有如下显著的复杂性特征，所以很难建立非常健壮的处理过程：一是数据有各种不同格式（Jaso.
复制链接

扫一扫