Spark Streaming基本原理

最新推荐文章于 2021-07-19 10:36:45 发布

在下蔡江琪

最新推荐文章于 2021-07-19 10:36:45 发布

阅读量2k

点赞数 2

分类专栏： SparkStreaming

本文链接：https://blog.csdn.net/qq_41848129/article/details/100012870

版权

Spark Streaming是一种高吞吐、容错性强的流处理框架，与Apache Storm相比，它以时间间隔批量处理数据。DStream是其核心抽象，由一系列连续的RDD表示，支持类似于RDD的操作如map、reduce、join等。通过DStream的Transformations和Output Operations，可以实现复杂的数据流处理任务，如updateStateByKey用于状态维护，reduceByKeyAndWindow进行开窗聚合。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

SparkStreaming

　　Spark Streaming类似于Apache Storm，用于流式数据的处理。Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据源有很多，例如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象操作如：map、reduce、join、window等进行运算。而结果也能保存在很多地方，如HDFS，数据库等。

特性

1、易用性
可以像编写离线批处理一样去开发流式的处理程序，并且可以使用java/scala/Python语言进行代码开发
2、容错性
SparkStreaming在没有额外代码和配置的情况下可以恢复丢失的工作。
3、可以融合到spark生态系统
sparkStreaming流式处理可以跟批处理和交互式查询相结合

与storm对比

storm是来一条数据处理一条数据，SparkStreaming是以某一时间间隔批量处理数据。

SparkStreaming原理

Spark Streaming 是基于spark的流式批处理引擎，其基本原理是把输入数据以某一时间间隔批量的处理，当批处理间隔缩短到秒级时，便可以用于处理实时数据流。

计算流程

Spark Streaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是Spark Core，也就是把Spark Streaming的输入数据按照batch size（如1秒）分成一段一段的数据（Discretized Stream），
每一段数据都转换成Spark中的RDD（Resilient Distributed Dataset），然后将Spark Streaming中对DStream的Transformation操作变为针对Spark中对RDD的Transformation操作，
将RDD经过操作变成中间结果保存在内存中。整个流式计算根据业务的需求可以对中间的结果进行缓存或者存储到外部设备。下图显示了Spark Streaming的整个流程。

最低0.47元/天解锁文章