Spark Core:第五章 共享变量

本文详细介绍了Spark中的两种共享变量——广播变量和累加器。广播变量用于减少Executor中task对Driver变量副本的需求,而累加器则作为集群中的全局计数工具。文章还补充了PV和UV的基本概念,以及相关面试问题,如Spark任务调度源码和分组取topN的方法。
摘要由CSDN通过智能技术生成

Spark Core:第五章 共享变量



—>Spark知识点总结导航<—


一、广播变量

1. 当Executor端使用到了Driver的变量

   (1) 不使用广播变量,Executor中有多少task就有多少变量副本

   (2) 使用广播变量,每个Executor只有一份Driver端的变量

2. 注意

   (1) 不能 将RDD广播出去,可以将RDD的结果广播出去

   (2) 广播变量只能在Driver端定义,在Executor 不能改变


二、累加器

1. 相当于集群中的统筹变量

2. 注意

   (1) 累加器只能在Dirver端定义,初始化,不能在Executor端定义初始化

   (2) 累加器不能在Executor端.value获取值


三、知识点补充

1. PV&UV

PV: page view 页面浏览量

UV: unique vistor

2. 面试简答

   (1) Spark 任务调度源码

     Action算子开始

   (2) 二次排序

     自定义类型 实现comparable接口 实现comparTo方法

   (3) 分组取topN

     ① groupByKey+Collections.sort(…)

     ② groupByKey+定长数组


--->有问题请联系QQ1436281495^_^

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值