- 博客(3)
- 资源 (1)
- 收藏
- 关注
原创 [spark streaming] 状态管理 updateStateByKey&mapWithState
前言SparkStreaming 7*24 小时不间断的运行,有时需要管理一些状态,比如wordCount,每个batch的数据不是独立的而是需要累加的,这时就需要sparkStreaming来维护一些状态,目前有两种方案updateStateByKey&mapWithState,mapWithState是spark1.6新加入的保存状态的方案,官方声称有10倍性能提升。updateStateByK
2017-12-30 17:19:17 1695
原创 [spark streaming] 动态生成 Job 并提交执行
Spark Streaming Job的生成是通过JobGenerator每隔 batchDuration 长时间动态生成的,每个batch 对应提交一个JobSet,因为针对一个batch可能有多个输出操作。概述流程:定时器定时向 eventLoop 发送生成job的请求通过receiverTracker 为当前batch分配block为当前batch生成对应的 Jobs将Jobs封装
2017-12-04 10:16:21 1706 1
原创 [spark streaming] ReceiverTracker 数据产生与存储
在Spark Streaming里,总体负责任务的动态调度是JobScheduler,而JobScheduler有两个很重要的成员:JobGenerator 和 ReceiverTracker。JobGenerator 负责将每个 batch 生成具体的 RDD DAG ,而ReceiverTracker负责数据的来源。需要在executor上运行的receiver接收数据的InputDStre
2017-12-02 21:46:47 404
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人