Structured Streaming曲折发展史

最新推荐文章于 2024-07-28 16:45:11 发布

老猫饿了

最新推荐文章于 2024-07-28 16:45:11 发布

阅读量76

点赞数

文章标签：大数据编程语言 python 机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013603364/article/details/124207740

版权

Structured Streaming曲折发展史

1.1. Spark Streaming

在2.0之前，Spark Streaming作为核心API的扩展，针对实时数据流，提供了一套可扩展、高吞吐、可容错的流式计算模型。Spark Streaming会接收实时数据源的数据，并切分成很多小的batches，然后被Spark Engine执行，产出同样由很多小的batchs组成的结果流。本质上，这是一种micro-batch(微批处理)的方式处理，这种设计让Spark Streaming面对复杂的流式处理场景时捉襟见肘。

其实在流计算发展的初期，市面上主流的计算引擎本质上都只能处理特定的场景，

spark streaming这种构建在微批处理上的流计算引擎，比较突出的问题就是处理延时较高(无法优化到秒以下的数量级)，以及无法支持基于event_time的时间窗口做聚合逻辑。

在这段时间，流式计算一直没有一套标准化、能应对各种场景的模型，直到2015年google发表了The Dataflow Model的论文。

https://yq.aliyun.com/articles/73255

1.2. Dataflow模型

在日常商业运营中，无边界、乱序、大规模数据集越来越普遍(例如，网站日志，手机应用统计，传感器网络)。同时，对这些数据的消费需求也越来越复杂，比如说按事件发生时间序列处理数据，按数据本身的特征进行窗口计算等等。同时人们也越来越苛求立刻得到数据分析结果。作为数据工作者，不能把无边界数据集(数据流)切分成有边界的数据，等待一个批次完整后处理。

相反地，应该假设永远无法知道数据流是否终结，何时数据会变完整。唯一确信的是，新的数据会源源不断而来，老的数据可能会被撤销或更新。

由此，google工程师们提出了Dataflow模型，从根本上对从前的数据处理方法进行改进。

1.2.1. 核心思想

对无边界，无序的数据源，允许按数据本身的特征进行窗口计算，得到基于事件发生时间的有序结果，并能在准确性、延迟程度和处理成本之间调整。

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Structured Streaming曲折发展史

Structured Streaming曲折发展史1.1.Spark Streaming在2.0之前，Spark Streaming作为核心API的扩展，针对实时数据流，提供了一套可扩展、高吞吐、可容错的流式计算模型。Spark Streaming会接收实时数据源的数据，并切分成很多小的batches，然后被Spark Engine执行，产出同样由很多小的batchs组成的结果流。本质...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。