SparkStreaming源码运行架构图解

最新推荐文章于 2022-03-26 23:19:02 发布

常耀斌

最新推荐文章于 2022-03-26 23:19:02 发布

阅读量573

点赞数 1

分类专栏： Spark生态核心技术

本文链接：https://blog.csdn.net/Peter_Changyb/article/details/82656897

版权

27 篇文章 2 订阅

订阅专栏

Spark Streaming基本原理：是将流数据分成小的时间片段（几秒），以类似批处理方式来处理这部分小数据。
处理流程：

Spark Streaming是建立在Spark上的实时计算框架，通过它提供丰富的API、基于内存的高速执行引擎，用户可以结合流式、批处理和交互试查询应用。

运行步骤如下：

step1：启动流处理引擎StreamingContext,创建DStreamGraph/JobScheduler（Receiver Tacker管理者）,Receiver Tacker通知客户端ReceiverSuperVisor管理者和Receiver干事,要开始接收数据。
step2：ReceiverSuperVisor通知Receiver写内存或者磁盘，一旦写满，通知Receiver Tacker管理者，提交数据保存位置，把元信息给Receiver Tacker。
step3：StreamingContext的定时器JobGenerator，通知Receiver Tacker管理者提交数据给集群，并要求DStreamGraph生成作业序号。
step4：数据处理结果给外部。