Spark Streaming 理解一

Spark Streaming是基于Spark的实时数据处理框架,通过将流数据拆分成小批次进行处理,提供低延迟和容错能力。其设计思想是将流式计算转化为一系列批处理作业,利用RDD进行数据处理。内部实现中,DStream转换为DStream Graph,每个时间片产生RDD Graph,进而生成Spark jobs执行。Spark Streaming适合需要历史和实时数据结合分析的场景,并通过RDD的容错机制确保高效处理。
摘要由CSDN通过智能技术生成
  1. 概念
    spark Streaming :构建在Spark上处理Stream数据的框架,其基于实时数据流的数据处理(streaming data processing),通常的时间跨度在数百毫秒到数秒之间。 ,基本的原理是将Stream数据分成小的时间片断(几秒),以类似batch批量处理的方式来处理这小部分数据。Spark Streaming构建在Spark上,一方面是因为Spark的低延迟执行引擎(100ms+)可以用于实时计算,另一方面相比基于Record的其它处理框架(如Storm),RDD数据集更容易做高效的容错处理。此外小批量处理的方式使得它可以同时兼容批量和实时数据处理的逻辑和算法。方便了一些需要历史数据和实时数据联合分析的特定应用场合。
  2. 总体设计思想
    Spark Streaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是Spark,也就是把Spark Streaming的输入数据按照batch size(如1秒)分成一段一段的数据(Discretized Stream),每一段数据都转换成Spark中的RDD(Resilient Distributed Dataset),然后将Spark Streaming中对DStream的Transformation操作变为针对Spark中对RDD的Transformation操作,将RDD经过操作变成中间结果保存在内存中。整个流式计算根据业务的需求可以对中间的结果进行叠加,或者存储到外部设备。下图显示了Spark Streaming的整个流程。这里写图片描述
  3. 内部实现
    使用Spark
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值