rdd 弹性分布式数据集
dag 有向无环图
join 具有相同的列
uion 具有相同数据结构
join groupBy filter
连接分组过滤
相同k 分组
yarn 资源分配框架
spark执行模型
shuffle 迁移数据 join by
洗牌 基于拉,而不是推
写入磁盘 拉数据
计算少量数据
上亿数据
集群管理器 cluster manager
worker node 懒加载
driver active
yarn的7%
yarn独占一核
每个执行器最好在五个内核一下
*集群面试题
rdd不会丢失
广播是只读的 累加器
数据倾斜
算子op
map flatMap sample union(窄依赖)
distinct reduceByKey combineByKey intersection
groupByKey() join(宽依赖)