大数据面试-Spark专题-002

专注大数据

于 2020-07-10 18:39:58 发布

阅读量495

点赞数

分类专栏：大数据面试 Spark 文章标签：大数据面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BigData2018/article/details/107260694

版权

Spark 同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

大数据面试

2 篇文章 0 订阅

订阅专栏

目录:

01、Spark常用算子reduceByKey与groupByKey的区别，哪一种更具优势？

reduceByKey：按照key进行聚合，在shuffle之前有combine（预聚合）操作，返回结果是RDD[k,v]。

groupByKey：按照key进行分组，直接进行shuffle。
开发指导：reduceByKey比groupByKey，建议使用。但是需要注意是否会影响业务逻辑。

02、如何使用Spark实现TopN的获取（描述思路或使用伪代码）

方法一：
（1）按照key对数据进行聚合（groupByKey）
（2）将value转换为数组，利用scala的sortBy或者sortWith进行排序（mapValues）数据量太大，会OOM。

方法二：
（1）取出所有的key
（2）对key进行迭代，每次取出一个key利用spark的排序算子进行排序

方法三：
（1）自定义分区器，按照key进行分区，使不同的key进到不同的分区
（2）对每个分区运用spark的排序算子进行排序

03、分别简述Spark中的缓存机制（cache和persist）与checkpoint机制，并指出两者的区别与联系

都是做RDD持久化的

cache:内存，不会截断血缘关系，使用计算过程中的数据缓存。
checkpoint：磁盘，截断血缘关系，在ck之前必须没有任何任务提交才会生效，ck过程会额外提交一次任务。

04、当Spark涉及到数据库的操作时，如何减少Spark运行中的数据库连接数？

使用foreachPartition代替foreach，在foreachPartition内获取数据库的连接。

05、简述Spark中共享变量（广播变量和累加器）的基本原理与用途。

累加器（accumulator）是Spark中提供的一种分布式的变量机制，其原理类似于mapreduce，即分布式的改变，然后聚合这些改变。累加器的一个常见用途是在调试时对作业执行过程中的事件进行计数。而广播变量用来高效分发较大的对象。

共享变量出现的原因：

通常在向 Spark 传递函数时，比如使用 map() 函数或者用 filter() 传条件时，可以使用驱动器程序中定义的变量，但是集群中运行的每个任务都会得到这些变量的一份新的副本，更新这些副本的值也不会影响驱动器中的对应变量。
Spark的两个共享变量，累加器与广播变量，分别为结果聚合与广播这两种常见的通信模式突破了这一限制。

专注大数据

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大数据面试-Spark专题-002

目录:01、Spark常用算子reduceByKey与groupByKey的区别，哪一种更具优势？02、如何使用Spark实现TopN的获取（描述思路或使用伪代码）03、分别简述Spark中的缓存机制（cache和persist）与checkpoint机制，并指出两者的区别与联系04、当Spark涉及到数据库的操作时，如何减少Spark运行中的数据库连接数？05、简述Spark中共享变量（广播变量和累加器）的基本原理与用途。01、Spark常用算子reduceByKey与groupByKey的区别，哪一种
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。