Spark Streaming(一) 基础知识介绍

最新推荐文章于 2022-10-22 09:07:59 发布

the_conquer_zzy

最新推荐文章于 2022-10-22 09:07:59 发布

阅读量646

点赞数

分类专栏： spark 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/the_conquer_zzy/article/details/106202779

版权

本文深入介绍了流处理的基本概念，包括流处理的挑战、数据传递语义和时间观念。重点讨论了Apache Spark Streaming，阐述了DStream和Structured Streaming的特点，强调了Spark在流处理中的微批处理模型和事件时间处理的重要性。

摘要由CSDN通过智能技术生成

本文介绍流处理的概念，流处理引擎环境和Apache Spark Streaming概述。

流处理

批数据处理是指通过固定的输入数据集运行计算逻辑，并在结束时产生结果。这意味着处理将在到达数据集末尾时停止。
相比之下，流处理是关于通过无界数据集运行计算逻辑，因此处理是连续且长时间运行的。
虽然批处理数据与流数据的区别主要在于有限性，但由于流数据的无界数据性质、实时数据的传入顺序、
数据到达的不同速率以及面对机器故障时对正确性和低延迟的期望，流数据处理要比批数据处理复杂得多，也更具挑战性。

流处理的挑战

流数据处理有它自己的一组独特的挑战，这些挑战是处理连续和无界数据的结果。
在开始构建长时间运行的流数据处理应用程序或评估特定的流处理引擎时，务必牢记这些挑战。挑战如下：

以可靠的方式为数据流应用维护潜在的大状态。
高效、快速地为应用程序提供要处理的消息。
处理无序到达的流数据。
与批量数据连接以丰富传入的流数据。
端到端、只需一次即可保证即使在出现故障的情况下也能交付数据。
处理不均匀的数据到达率

流处理的概念

数据传递语义。
时间观念。
窗口

数据传递语义

当一条数据进入流处理引擎时，它有责任将其传送到流应用程序进行处理。即使在故障情况下，流处理引擎也可以提供三种类型的保证。

至多一次：这意味着流处理引擎保证一段数据不会

最低0.47元/天解锁文章

the_conquer_zzy

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。