sparkStreaming的工作原理

架构:


为什么使用kafka

1.kafka可以存储海量中间数据,防止streaming崩溃。

2.不用关心数据的源是什么,只要从kakfa提取数据可以,提供统一interface

3.Kafka具有persistence功能,可以指定时间段内的数据(非常重要的功能),间接的把流式处理变为离线数据分析。

4.Kafka采用zero-copy,一次读入内核,以后都是从内核直接读取。导致的结果是streamingkakfa读数据,要比从底层数据源快2W倍。

 

sparkStreaming的运行机制?

Spark定时产生jobstreaming是基于dstream编程,dstreamaction不会触发job,仅仅作为job的模板,spark会定时把dstream转换为新的job实例提交给集群运行。

sparkStreaming仅仅是根据流式数据处理的特征做了一层封装而已。

1.sparkStreamingjob驱动依赖于时间。

2.DStreamrdd的模板

3.DstreamGraphyrddDAG模板


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值