Spark Streaming-概述

最新推荐文章于 2024-08-16 09:21:03 发布

我是星星我会发光i

最新推荐文章于 2024-08-16 09:21:03 发布

阅读量8.4k

点赞数

分类专栏： Spark 文章标签： Spark Streaming-概述

我是星星我会发光

本文链接：https://blog.csdn.net/weixin_43233971/article/details/103176875

版权

Spark 专栏收录该内容

23 篇文章 1 订阅

订阅专栏

1.Spark Streaming是什么

Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如：map、reduce、join、window等进行运算。而结果也能保存在很多地方，如HDFS，数据库等。

和Spark基于RDD的概念很相似，Spark Streaming使用离散化流(discretized stream)作为抽象表示，叫作DStream。DStream 是随时间推移而收到的数据的序列。在内部，每个时间区间收到的数据都作为 RDD 存在，而DStream是由这些RDD所组成的序列(因此得名“离散化”)。

2.Spark Streaming的特点

（1）易用

（2）容错

（3）易整合到Spark体系

3.Spark Streaming的架构

Spark Streaming为每个输入源启动对应的接收器。接收器以任务的形式运行在应用的执行器进程中，从输入源收集数据并保存为RDD。它们收集到输入数据后会把数据复制到另一个执行器进程来保障容错性。数据保存在执行器进程的内存中，和缓存RDD的方式一样。驱动器程序中的StreamingContext会周期性地运行Spark作业来处理这些数据，把数据与之前时间区间中的RDD进行整合。

Spark Streaming使用“微批次”的架构，把流式计算当作一系列连续的小规模批处理来对待。Spark Streaming从各种输入源中读取数据，并把数据分组为小的批次。新的批次按均匀的时间间隔创建出来。在每个时间区间开始的时候，一个新的批次就创建出来，在该区间内收到的数据都会被添加到这个批次中。在时间区间结束时，批次停止增长。时间区间的大小是由批次间隔这个参数决定的。批次间隔一般设置在500毫秒到几秒之间，由应用开发者配置。每个输入批次都形成一个RDD，以spark作业的方式处理并生成其他的RDD。处理的结果可以以批处理的方式传给外部系统。

4.Spark Streaming和Storm的区别