Spark性能调优案例-千亿大表读取，数据倾斜和task倾斜

最新推荐文章于 2024-03-25 21:54:51 发布

fir_dameng

最新推荐文章于 2024-03-25 21:54:51 发布

阅读量1.1k

点赞数

分类专栏： Spark 文章标签： Spark sql 千亿大表优化参数优化 task倾斜数据倾斜

本文链接：https://blog.csdn.net/u014034497/article/details/127820307

版权

本文介绍了如何排查和优化Spark任务性能问题，涉及千亿大表读取、数据倾斜和task倾斜的解决方法。通过参数优化和逻辑调整，成功将原本耗时1.5小时的任务降至50分钟，显著提升了任务执行效率。

摘要由CSDN通过智能技术生成

1、背景

A任务在凌晨1点到3点，平均耗时1.5h,且是核心公共任务，急需优化。
整体代码逻辑示意：

// 从tableA读取一次数据，放到临时表t1
DROP TABLE IF EXISTS temp.tmp_xx_$date_1;
CREATE TABLE IF NOT EXISTS temp.tmp_xxx_$date_1
as 
select 
xxx
from  tableA
where xxxx;

// 从临时表t1读取和转换数据，得临时表t2
DROP TABLE IF EXISTS temp.tmp_xx_$date_2;
CREATE TABLE IF NOT EXISTS temp.tmp_xxx_$dat