Spark学习笔记:DStream基本工作原理

本文介绍了Spark Streaming中的DStream,这是一种高级抽象,代表持续的数据流。DStream由连续的RDD组成,算子操作会转化为对每个RDD的操作。文章还提到了Spark Streaming的编程步骤,包括创建DStream,应用算子,以及存储结果。此外,批处理时间间隔在Spark Streaming中起关键作用,数据按设定的时间间隔进行批量处理。
摘要由CSDN通过智能技术生成

DStream基本工作原理

DStream是Spark Streaming提供的一种高级抽象,英文全称为Discretized Stream,中文翻译为离散流,它代表了一个持续不断的数据流。DStream可以通过输入数据源(比如从Flume、Kafka中)来创建,也可以通过对其他DStream应用高阶函数(map,flatmap)来创建。

在内部实现上,DStream由一组时间序列上连续的RDD来表示,RDD是Spark Core的核心抽象,即不可变的、分布式的数据集,DStream中的每个RDD都包含了一个时间段内的数据

对DStream应用的算子,在底层会被转换为对DStream中每个RDD的操作
底层原理为,对DStream中每个时间段的RDD都应用一遍算子操作,然后生成新的RDD,即作为新的DStream中的那个时间段的RDD

经过一系列算子操作之后,最终可以将实时计算的结果存储到相关介质中,如Redis、HBase、MySQL。

根据这个流程也可以得出Spark Streaming编程的步骤:

1.创建输入的数据流DStream
2.对DStream进行各种算子操作,得到新的DStream
3.将处理完的结果存储到存储介质中

批处理时间间隔

Spark Streaming中,数据采集是逐条进行的,而数据处理是按批进行的
Spark Streaming中会先设置好批处理的时间间隔。当达到批处理时间间隔的时候就会把采集到的数据汇总起来成为一批数据交给系统去处理

 

 

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值