大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day22】——Spark9_spark hashparitioner 弊端(1)

最新推荐文章于 2024-07-06 22:58:00 发布

2401_84183669

最新推荐文章于 2024-07-06 22:58:00 发布

阅读量430

点赞数 4

分类专栏：程序员文章标签：大数据面试 spark

本文链接：https://blog.csdn.net/2401_84183669/article/details/138431372

版权

程序员专栏收录该内容

120 篇文章 0 订阅

订阅专栏

本文分享了大数据开发岗面试中关于Spark的五个问题，涉及累加器的特点、hashParitioner的弊端、RangePartitioner原理及特点，以及Standalone模式下的资源分配。提供从基础到进阶的学习资源链接。

摘要由CSDN通过智能技术生成

在这里插入图片描述

本栏目大数据开发岗高频面试题主要出自大数据技术专栏的各个小专栏,由于个别笔记上传太早,排版杂乱,后面会进行原文美化、增加。

文章目录

- 前言

停🤚
不要往下滑了，
默默想5min，
看看这5道面试题你都会吗？

面试题 01、Spark累加器有哪些特点？
面试题02、Spark hashParitioner的弊端是什么？
面试题 03、RangePartitioner分区的原理？
面试题04、rangePartioner分区器特点？
面试题05、如何理解Standalone模式下，Spark资源分配是粗粒度的？

在这里插入图片描述

以下答案仅供参考：

面试题 01、Spark累加器有哪些特点？

1）累加器在全局唯一的，只增不减，记录全局集群的唯一状态；
2）在exe中修改它，在driver读取；
3）executor级别共享的，广播变量是task级别的共享两个application不可以共享累加器，但是同一个app不同的job可以共享。

面试题02、spark hashParitioner的弊端是什么？

HashPartitioner分区的原理很简单，对于给定的key，计算其hashCode，并除于分区的个数取余，如果余数小于0，则用余数+分区的个数，最后返回的值就是这个key所属的分区ID；弊端是数据不均匀，容易导致数据倾斜，极端情况下某几个分区会拥有rdd的所有数据。

面试题03、RangePartitioner分区的原理？

RangePartitioner分区则尽量保证每个分区中数据量的均匀，而且分区与分区之间是有序的，也就是说一个分区中的元素肯定都是比另一个分区内的元素小或者大；但是分区内的元素是不能保证顺序的。简单的说就是将一定范围内的数映射到某一个分区内。其原理是水塘抽样。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

，并且后续会持续更新**

需要这份系统化资料的朋友，可以戳这里获取

2401_84183669

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day22】——Spark9_spark hashparitioner 弊端(1)

本栏目大数据开发岗高频面试题主要出自大数据技术专栏的各个小专栏,由于个别笔记上传太早,排版杂乱,后面会进行原文美化、增加。
复制链接

扫一扫