Spark Streaming(二) Structed Streaming

最新推荐文章于 2023-03-21 11:04:28 发布

the_conquer_zzy

最新推荐文章于 2023-03-21 11:04:28 发布

阅读量526

点赞数 1

分类专栏： spark 大数据

本文链接：https://blog.csdn.net/the_conquer_zzy/article/details/106270351

版权

本文详细介绍了Spark Streaming的Structured Streaming，包括其以处理批量计算方式对待流计算的思想，与存储系统的事务集成以提供端到端、只需一次的保证。讲解了核心概念如数据源、输出模式、触发器类型和数据接收器，并通过实际应用示例展示了如何使用Structured Streaming进行流处理。

摘要由CSDN通过智能技术生成

Spark Streaming(二) Structed Streaming

本文详细介绍下Spark Streaming的第二代引擎Structed Streaming，包括Structed Streaming的概述，核心概念，
Structed Streaming相关的应用等。

Structed Streaming 概述

Structed Streaming 有两个关键思想：以处理批量计算的方式对待流计算和与存储系统的事务集成，以提供端到端、只需一次的保证。

以处理批量计算的方式对待流计算

以处理批量计算的方式对待流计算，也就是说将流数据看作是连续追加表的形式。这意味着将传入的数据流视为输入表，并在新的一组数据到达时将其视为附加到输入表的一组新行。
这种思路有很多好处。其中之一是能够利用Scala、Java或Python中现有的DataFrame和DataSet的结构化API来执行流计算，
并让结构化流引擎负责在新的流数据到达时增量地、连续地运行它们。
另一个好处是可以使用上一章中讨论的同一Catalyst引擎来优化通过结构化API表示的流计算。
除此之外从使用结构化API中获得的知识可以直接用于构建在Spark结构化流引擎上运行的流应用程序。唯一需要学习的剩余部分是特定于流处理域的部分，例如事件时间处理和维护状态，节约了学习成本。

与存储系统的事务集成，以提供端到端、只需一次的保证
这里的目标是确保从存储系统读取数据的服务应用程序看到流应用程序已处理的数据的一致快照。
传统上，开发人员有责任确保从流应用程序向外部存储系统发送数据时不会出现重复数据或数据丢失。这是流应用程序开发人员提出的痛点之一。
从内部来看，Structure Streaming引擎已经提供了恰好只有一次的保证，现在，如果外部存储系统支持事务，同样的保证也会扩展到这些系统。

从Spark 2.3 开始，Structed Streaming 已经扩展为支持一种叫“ontinuous processing”的新模型，在此之前Spark只支持Micro Batch 模型，Micro Batch是Spark的默认模型。
由于Micro Batch模型等待并收集一小批数据然后处理的性质，它适用于可以容忍100毫秒范围内的端到端延迟的应用。对于其他需要低至1毫秒的端到端延迟的应用它们应该使用连续处理模型。