自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

UFO的博客

12月 11月 10月 09月 02月

原创 [spark streaming] 状态管理 updateStateByKey&mapWithState

前言SparkStreaming 7*24 小时不间断的运行，有时需要管理一些状态，比如wordCount，每个batch的数据不是独立的而是需要累加的，这时就需要sparkStreaming来维护一些状态，目前有两种方案updateStateByKey&mapWithState，mapWithState是spark1.6新加入的保存状态的方案，官方声称有10倍性能提升。updateStateByK

2017-12-30 17:19:17 1695

原创 [spark streaming] 动态生成 Job 并提交执行

Spark Streaming Job的生成是通过JobGenerator每隔 batchDuration 长时间动态生成的，每个batch 对应提交一个JobSet，因为针对一个batch可能有多个输出操作。概述流程：定时器定时向 eventLoop 发送生成job的请求通过receiverTracker 为当前batch分配block为当前batch生成对应的 Jobs将Jobs封装

2017-12-04 10:16:21 1706 1

原创 [spark streaming] ReceiverTracker 数据产生与存储

在Spark Streaming里，总体负责任务的动态调度是JobScheduler，而JobScheduler有两个很重要的成员：JobGenerator 和 ReceiverTracker。JobGenerator 负责将每个 batch 生成具体的 RDD DAG ，而ReceiverTracker负责数据的来源。需要在executor上运行的receiver接收数据的InputDStre

2017-12-02 21:46:47 404

PID算法（经典）

PID算法（经典）

2014-09-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

大写的UFO CSDN认证博客专家 CSDN认证企业博客

码龄10年

IP 属地：四川省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

35: 原创

24万+: 周排名

125万+: 总排名

7万+: 访问

: 等级

1176: 积分

39: 粉丝

25: 获赞

21: 评论

69: 收藏

私信

关注

热门文章

分类专栏

最新评论

基于spark sql引擎的即席查询服务
春_: 请问，可以本地启动吗？我尝试本地启动engine启动总是报错要设置master，尝试setConfig也还是会出现一样的错误
Spark 实现MySQL update操作
huihuixia123: 您好，问一下对应的是spark 的哪个jar呢
Elasticsearch5.6搭建及拼音中文混合搜索实现
qq_18403089: 你这写的好简单
[Spark SQL] 主要执行流程
风流少年: 666
[spark] 数据本地化及延迟调度
高亮: 您好大神，看了您的延迟调度策略后，有一个问题久久想不明白，所以想向您请教：在getAllowedLocalityLevel方法中，当PROCESS_LOCAL本地性没有任务可以执行时，代码块里面有这样一句话：lastLaunchTime = curTime 那么当NODE_LOCAL有任务执行时，因为lastLaunchTime = curTime 所以curTime - lastLaunchTime 一定小于等待时间(等于0)所以会返回NODE_LOCAL本地性，更大的问题是，哪怕是NODE_LOCAL都执行完了，只要走这个延迟调度策略方法，case TaskLocality.PROCESS_LOCAL => moreTasksToRunIn(pendingTasksForExecutor) 一定是false还是会走lastLaunchTime = curTime代码块，最终一直返回的本地性都是NODE_LOCAL，所以这里一直想不明白，想请教高人，如能解答万分感谢

最新文章

提示

确定要删除当前文章？

取消删除