《深入理解Spark》之spark Streaming概念的再理解

本文详细介绍了Spark Streaming的工作原理,包括微批处理的时间间隔batchInterval,以及窗口长度windowLen和窗口滑动时间windowSlide的关系。讨论了DStream的内部结构及其与RDD的联系,并探讨了Spark Streaming的容错处理机制,如Worker和Driver节点失效时的数据恢复策略。此外,文章还阐述了Spark Streaming作业的触发和执行方式。
摘要由CSDN通过智能技术生成

1、spark Streaming是一个微批处理的框架

2、批处理时间间隔 batchInterval 
     >> 表示在batchInterval时间内Spark 所接收的数据被当做一个批次做处理
3、批处理时间间隔(batchInterval)、窗口长度(windowLen)、窗口滑动时间(windowSlide)之间的关系
   >> 3.1 spark提交作业最小的单位是batchInterval即在batchInterval时间内的数据作为数据处理最小的单位
   >> 3.2 windowLen 表示处理的"数据量"即处理的数据量是batchInterval的N倍,N具体是几就要看windowLen是batchInterval的几倍
   >> 3.3 windowSlide 表示提交作业的时长,也是batchInterval的整数倍
   >> 3.4 eg:如果 batchInterval=t,  windowLen=10t,  windowSlide=3t 
        >> 此时,spark每次会处理最近10t时间内的数据,即每3t时间处理一次,处理的数据时最近10t内的数据
>> 在现实中比如天猫双11的销售额,每10秒钟处理一下最近24小时的销售额,这个10秒钟就是windowSlide,24小时就是windowLen
>> 由此可见,windowLen和windowSlide都必须是batchInterval的整数倍
4、DStream的原理以及与RDD的关系
>> 4.1 DStream是针对RDD的抽象,表示一系列在时间上连续的RDD
>> 4.2 Dstream中包含3大部分(1)、DStream之间的依赖关系,即操作链依赖 (2)、一系列

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值