SparkStreaming源码运行架构图解

Spark Streaming基本原理:是将流数据分成小的时间片段(几秒),以类似批处理方式来处理这部分小数据。
处理流程:

  1. Spark Streaming把实时输入数据流以时间片Δt (如1秒)为单位切分成块
  2. Spark Streaming会把每块数据作为一个RDD,并使用RDD操作处理每一小块数据
  3. 每个块都会生成一个Spark Job处理
  4. 最终结果也返回多块

Spark Streaming是建立在Spark上的实时计算框架,通过它提供丰富的API、基于内存的高速执行引擎,用户可以结合流式、批处理和交互试查询应用。

  1. Saprk的低延迟执行引擎(100MS+)可以用于实时处理
  2. 相比于strom(基于Record),RDD数据更容易做容错。
  3. 可以与kafka,Flume,ZeroMQ等进行数据源的对接
  • 先说一下各个组件:SparkStreaming包括Driver和Client端,StreamingContext运行在Driver端,包括如图中的几个进程。

运行步骤如下:

  1. step1:启动流处理引擎StreamingContext,创建DStreamGraph/JobScheduler(Receiver Tacker管理者),Receiver Tacker通知客户端ReceiverSuperVisor管理者和Receiver干事,要开始接收数据。
  2. step2:ReceiverSuperVisor通知Receiver写内存或者磁盘,一旦写满,通知Receiver Tacker管理者,提交数据保存位置,把元信息给Receiver Tacker。
  3. step3:StreamingContext的定时器JobGenerator,通知Receiver Tacker管理者提交数据给集群,并要求DStreamGraph生成作业序号。
  4. step4:数据处理结果给外部。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值