1 数据倾斜现象
1、现象
绝大多数task任务运行速度很快,但是就是有那么几个task任务运行极其缓慢,慢慢的可能就接着报内存溢出的问题。

2、原因
数据倾斜一
本文主要探讨了Spark数据倾斜的现象、大key定位方法以及多种优化策略,包括单表数据倾斜优化、广播Join、拆分大key和扩容小表以及通过开启AQE(Adaptive Query Execution)来应对数据倾斜问题。通过案例演示了这些优化技术的实践应用。
1、现象
绝大多数task任务运行速度很快,但是就是有那么几个task任务运行极其缓慢,慢慢的可能就接着报内存溢出的问题。

2、原因
数据倾斜一
962
566

被折叠的 条评论
为什么被折叠?