module12 spark

rdd 弹性分布式数据集
dag 有向无环图

join 具有相同的列
uion 具有相同数据结构

join groupBy filter
连接分组过滤
相同k 分组
yarn 资源分配框架

spark执行模型

shuffle 迁移数据 join by
洗牌 基于拉,而不是推
写入磁盘 拉数据

计算少量数据

上亿数据

集群管理器 cluster manager
worker node 懒加载
driver active
yarn的7%
yarn独占一核
每个执行器最好在五个内核一下

*集群面试题

rdd不会丢失

广播是只读的 累加器

数据倾斜

算子op
map flatMap sample union(窄依赖)

distinct reduceByKey combineByKey intersection

groupByKey() join(宽依赖)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值