Spark面试高频真题二--数据倾斜

最新推荐文章于 2024-10-05 17:07:33 发布

Ethan扯数据

最新推荐文章于 2024-10-05 17:07:33 发布

阅读量1.1k

点赞数 33

文章标签： spark 面试大数据

本文链接：https://blog.csdn.net/m0_73359763/article/details/141910585

版权

〇、前言

Spark是业界常用的大规模分布式数据处理引擎，也是数仓开发最常用的工具组件，通常一二三轮面试官都会或多或少的提问相关的基础问题。

数据倾斜是数仓面试必问题，属于数据开发基本功，但从发现、定位、处理、预防全面准确的回答才能让面试官感受到深度的思考，体现出候选人对于组件原理与应用的专业性。下面是总结的数据倾斜相关的面试问题和答案参考。

一、数据倾斜

1.数据倾斜现象

一般有两种现象基本可以断定是发生了数据倾斜。一是大部分task都完成的非常快，但是个别task用时非常长。例如总共1000个task，990个都在分钟内完成；但是剩余10个都需要一个小时以上，那么可以断定发生了数据倾斜。二是一直运行正常的任务，突然某一天发生了OOM。大概率也是出现了异常热点key导致数据倾斜。

2.数据倾斜原理

Shuffle过程中map节点的所有数据会根据每行数据的key值分发到不同的reduce节点，如果这时候key值分布不均衡，就会导致少量热点key值的task数据传输开销过大。例如大多数key值数据只有10条，但是少部分key值有100w条；那么计算10条key值的task会在几秒内完成，但是100w条key值的task可能会需要一个小时，最终spark任务的完成时间是一个小时，被耗时最长的task整体拖慢。

因此数据倾斜出现时，spark任务看起来会很慢，甚至让负载较多的task内存溢出导致spark任务失败。

3.数据倾斜定位

spark自带web ui，可以用于监控任务运行的状态。当判断可能是数据倾斜问题时，可以先查看stage页面，确认是具体哪个stage导致的数据运行较慢，或者内存溢出。接着stage点击对应的DAG图例，查看具体是哪个表的那个算子操作导致的运行缓慢。一般都是groupby或者join算子中的shuffle操作。