万亿级别的shuffle量，Spark SQL 调优

最新推荐文章于 2024-08-29 17:06:49 发布

Me丶kang

最新推荐文章于 2024-08-29 17:06:49 发布

阅读量899

点赞数

CC 4.0 BY-SA版权

文章标签：大数据 spark 机器学习

本文链接：https://blog.csdn.net/dkk2014/article/details/110952176

接了一个业务方面的Spark Sql需求，2个大表join.

20e 和90e数据join，无其他复杂逻辑，按固定字段join。

由于发生了叉乘。中间结果达到上万亿，12T数据量。

Task很容易失败，查看具体LOG，报一些经典shuffle异常，比如timeout, shuffle lost location。

调优思路:让每个task处理更少的数据量（提高并发），减少GC时间，提高程序稳定性（retry和timeout参数配置），shuffle系列参数

1.先查看Spark Web Ui ，看内存使用是否频繁GC，若频繁提高Executor内存

2.调整shuffle系列参数

--conf spark.shuffle.spill.numElementsForceSpillThreshold=5000000 \
--conf spark.shuffle.file.buffer=1024k \
--conf spark.reducer.maxSizeInFlight=100m \
--conf spark.shuffle.io.maxRetries=20 \
--conf spark.shuffle.io.retryWait=60s \

3.GC情况良好，可提高core数，我从1提高到了4，内存可不变或适当提高，我从8G提高到了14G，结合num-executors的个数，调整spark.sql.shuffle.partitions = num-executors * executor-cores * 3。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Me丶kang

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Spark 之 Shuffle & AQE

zhixingheyi_tian的博客

06-03

2711

shuffle

Spark调优：性能调优、JVM调优、shuffle调优、算子调优、troubleshooting调优、数据倾斜

Big_data_implicit_

12-27

2789

目录一、性能调优 1、分配资源 2、提高spark运行的并行度 3、重构RDD架构以及RDD持久化 4、使用广播变量 5、使用Kryo序列化 6、使用fastutil集合 7、调节数据本地化等待时长(s) 二、JVM调优 1、JVM调优：降低cache操作的内存占比 2、JVM调优：executor堆外内存与连接等待时长三、shuffle性能调优 1、shuffle的原理 2、shuf...

参与评论您还未登录，请先登录后发表或查看评论

[sparkSQL] Shuffle

言之。

12-30

1万+

请注意，Shuffle 操作是开销较大的操作，因为它涉及数据的物理移动和网络通信。在 Spark 中，尽量减少 Shuffle 操作可以提高性能。可以通过合理设计数据分区、使用广播变量、使用合适的数据结构等方式来减少 Shuffle 的发生。在Spark SQL中，Shuffle 是指将数据重新分布到不同的节点上以进行处理的操作。

SparkSQL的Shuffle分区设定及异常数据处理API（去重、缺失值处理）

2202_75347029的博客

10-23

785

在Spark SQL中，当Job中产生Shuffle时，默认的分区数（spark.sql.shuffle.partions）为200，在实际项目中要合理的设置。在允许spark程序时，查看WEB UI监控页面发现，某个Stage中有200个Task任务，也就是说RDD有200分区Partion。功能：如果数据中包含null通过dropna来进行判断，符合条件就删除这一行数据。功能：对DF的数据进行去重，如果重复数据有多条，取第一条。功能：根据参数的规则，来进行null的替换。

Spark-Part1.大数据生态圈中的Shuffle过程

qq_42104423的博客

05-24

365

1.Shuffle 首先什么是shuffle，在Hadoop生态圈中，经常会提到MappSide和ReduceSide，这两端是最经典的MSR范式。在Hadoop中，Shuffle的过程由Map端的输出结束到Reduce端的开始，这个过程统称为Shuffle的过程。Shuffle经常围绕着大量的聚合、分组的过程。例如我们再HiveSQL中执行一条最简短的 SELECT COUNT(*) FROM TABLE GROUP BY COLUMN_A 这句SQL中group by函数就会造成shuffle过程的出

Spark-Shuffle

weixin_43006131的博客

02-05

483

Spark-Shuffle理解对spark任务划分阶段，遇到宽依赖会断开，所以在stage 与 stage 之间会产生shuffle，大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。负责shuffle过程的执行、计算和处理的组件主要就是ShuffleManager，也即shuffle管理器。而随着S...

万亿级别的shuffle量，spark sql 调优

03-16

针对万亿级别的shuffle量，Spark SQL 调优需要考虑以下几个方面： 1. 调整并行度：可以通过调整并行度来提高任务的执行效率。可以通过设置 spark.sql.shuffle.partitions 参数来控制 shuffle 的并行度，建议将其...

Spark与Spark SQL调优指南

热门推荐

weixin_43179522的博客

08-11

2万+

谈谈spark.sql.shuffle.partitions和 spark.default.parallelism 的区别及spark并行度的理解spark.sql.shuffle.partitions和 spark.default.parallelism 的区别spark并行度的理解如何设置spark.sql.shuffle.partitions和spark.default.parallelism的值 spark.sql.shuffle.partitions和 spark.default.parallel

sparksql的shuffle分区数设置

qq_42936727的博客

03-28

1657

在SparkSQL中当Job中产生Shuffle时，默认的分区数(spark.sql.shuffle.partitions)为200,在实际项目中要合理的设置，特别是本地场景，一般支持不了200个分区。通常在集群中，也是设置和CPU核心一致，或者CPU的2倍以上。

spark shuffle流程入门

鸭梨的博客

11-19

744

shuffle操作 Spark中的某些操作会触发一个称为shuffle的事件。shuffle是Spark重新分发数据的机制，以便在分区之间以不同的方式分组。这通常涉及到在执行器和计算机之间复制数据，从而使shuffle成为一项复杂而昂贵的操作。背景为了理解shuffle过程中会发生什么，我们可以考虑reduceByKey操作的例子。reduceByKey操作生成一个新的RDD，其中一个键的所有值都被组合到一个元组中，这个元组是对与该键相关联的所有值执行reduce函数的结果。问题是，不是一个键的所有值都

Spark性能调优-----Shuffle调优

weidajiangjiang的博客

11-30

576

1.3.1Shuffle调优一：调节map端缓冲区大小在Spark任务运行过程中，如果shuffle的map端处理的数据量比较大，但是map端缓冲的大小是固定的，可能会出现map端缓冲数据频繁spill溢写到磁盘文件中的情况，使得性能非常低下，通过调节map端缓冲的大小，可以避免频繁的磁盘IO操作，进而提升Spark任务的整体性能。 map端缓冲的默认配置是32KB，如果每个task处理640K...

Spark-Suffle调优

星星的博客

10-27

616

Spark之Suffle调优

spark-sql orderby遇到的shuffle问题

qq_36213530的博客

02-28

2399

第3点减少shuffle的数据量，这个我也有考虑，原本三列合并为一列（key: id_data_type），没有用到的列我也drop掉。shuffle read(Map阶段)的时候数据的分区数则是由spark提供的一些参数控制，如果这个。参数值设置的很小，同时shuffle read的量很大，那么将会导致一个task需要处理的数据非常大。异常id单独拎出来处理，加盐（id_随机数），再排序，再减盐（id_去除随机数），二阶段再排序，是我们最需要考虑的，因为数据没有过于数据倾斜，最先想到的就是。

Spark处理百亿规模数据优化实战

aijiudu的博客

07-24

2万+

本优化是生产环境下用Spark处理百亿规模数据的一些优化实战，并成功将程序的速度提升一倍（涉及到敏感信息本文在2018-07-04号将其删除，阅读上可能显得不完整）下面介绍一些基本的优化手段本文于2017-07-16号书写 Spark任务优化本节主要从内存调优、高性能算子、数据结构优化、广播大变量和小表调优、动态并行度调优、Spark文件切分策略调优来介绍Spark处理大规模数据的一...

如何避免Spark SQL做数据导入时产生大量小文件

过往记忆大数据

03-09

2549

我们之前的文章《蚂蚁绊倒大象...》介绍过，海量小文件是大数据领域中公认的难题，对时间和性能都可能造成毁灭性打击。本文将继续针对小文件，讲解小文件产生的原因和一些解决办法，希望对大家能有所...

简化SQL计算之打乱数据列次序（Shuffle）

一台数据分析的机器！

06-02

1909

REF_VALUES是数据库表，ID是主键，ORIGINAL_VALUE是源列，将ORIGINAL_VALUE打乱次序后要更新到空列SHUFFLED_VALUE。部分数据如下： SQL：不同的数据库写法不同，以Oracle为例： create or replace procedure shuffle as TYPE My_CurT...

【博学谷学习记录】超强总结，用心分享|狂野大数据课程【Spark SQL的shuffle分区设置】的总结分析

qq_42198232的博客

03-05

801

Spark SQL的shuffle分区设置