Spark Core:第五章 共享变量
—>Spark知识点总结导航<—
一、广播变量
1. 当Executor端使用到了Driver的变量
(1) 不使用广播变量,Executor中有多少task就有多少变量副本
(2) 使用广播变量,每个Executor只有一份Driver端的变量
2. 注意
(1) 不能 将RDD广播出去,可以将RDD的结果广播出去
(2) 广播变量只能在Driver端定义,在Executor 不能改变
二、累加器
1. 相当于集群中的统筹变量
2. 注意
(1) 累加器只能在Dirver端定义,初始化,不能在Executor端定义初始化
(2) 累加器不能在Executor端.value获取值
三、知识点补充
1. PV&UV
PV: page view 页面浏览量
UV: unique vistor
2. 面试简答
(1) Spark 任务调度源码
Action算子开始
(2) 二次排序
自定义类型 实现comparable接口 实现comparTo方法
(3) 分组取topN
① groupByKey+Collections.sort(…)
② groupByKey+定长数组