大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day22】——Spark9_spark hashparitioner 弊端

最新推荐文章于 2024-06-17 21:44:46 发布

2401_84182685

最新推荐文章于 2024-06-17 21:44:46 发布

阅读量742

点赞数 18

分类专栏：程序员文章标签：大数据面试 spark

本文链接：https://blog.csdn.net/2401_84182685/article/details/138285953

版权

程序员专栏收录该内容

125 篇文章 0 订阅

订阅专栏

在这里插入图片描述

本栏目大数据开发岗高频面试题主要出自大数据技术专栏的各个小专栏,由于个别笔记上传太早,排版杂乱,后面会进行原文美化、增加。

文章目录

- 前言

停🤚
不要往下滑了，
默默想5min，
看看这5道面试题你都会吗？

面试题 01、Spark累加器有哪些特点？
面试题02、Spark hashParitioner的弊端是什么？
面试题 03、RangePartitioner分区的原理？
面试题04、rangePartioner分区器特点？
面试题05、如何理解Standalone模式下，Spark资源分配是粗粒度的？

在这里插入图片描述

以下答案仅供参考：

面试题 01、Spark累加器有哪些特点？

1）累加器在全局唯一的，只增不减，记录全局集群的唯一状态；
2）在exe中修改它，在driver读取；
3）executor级别共享的，广播变量是task级别的共享两个application不可以共享累加器，但是同一个app不同的job可以共享。

面试题02、spark hashParitioner的弊端是什么？

HashPartitioner分区的原理很简单，对于给定的key，计算其hashCode，并除于分区的个数取余，如果余数小于0，则用余数+分区的个数，最后返回的值就是这个key所属的分区ID；弊端是数据不均匀，容易导致数据倾斜，极端情况下某几个分区会拥有rdd的所有数据。

面试题03、RangePartitioner分区的原理？

RangePartitioner分区则尽量保证每个分区中数据量的均匀，而且分区与分区之间是有序的，也就是说一个分区中的元素肯定都是比另一个分区内的元素小或者大；但是分区内的元素是不能保证顺序的。简单的说就是将一定范围内的数映射到某一个分区内。其原理是水塘抽样。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**

2401_84182685

关注

18
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day22】——Spark9_spark hashparitioner 弊端

本栏目大数据开发岗高频面试题主要出自大数据技术专栏的各个小专栏,由于个别笔记上传太早,排版杂乱,后面会进行原文美化、增加。
复制链接

扫一扫