Spark shuffle调优

最新推荐文章于 2022-09-30 23:06:36 发布

haixwang

最新推荐文章于 2022-09-30 23:06:36 发布

阅读量908

点赞数 1

分类专栏： Hadoop、Spark、Hbase...

本文链接：https://blog.csdn.net/haixwang/article/details/90714219

版权

本文主要探讨了如何对Spark的shuffle过程进行优化，包括优化前后shuffle写入数据的对比，RDD压缩以降低shuffle write的大小，以及Kryo注册和序列化缓存的详细步骤，通过这些方法提升Spark作业的性能。

摘要由CSDN通过智能技术生成

一、优化前：

shuffle写的比例为输入数据的1.5倍：
在这里插入图片描述

二、优化后：

在这里插入图片描述

三、RDD压缩

spark.shuffle.compress
序列化后，shuffle write仍然较大，考虑压缩
sparkConf.set("spark.rdd.compress", "true")

四、序列化优化

4-1、kyro注册

sparkConf.registerKryoClasses(Array(classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],classOf[org.apache.hadoop.hbase.client.Put],classOf[org.apache.hadoop.hbase.client.Result]))

kryo官方的一个例子

import com<

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

haixwang

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark-Shuffle

weixin_43006131的博客

02-05

401

Spark-Shuffle理解对spark任务划分阶段，遇到宽依赖会断开，所以在stage 与 stage 之间会产生shuffle，大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。负责shuffle过程的执行、计算和处理的组件主要就是ShuffleManager，也即shuffle管理器。而随着S...

Spark性能优化：shuffle调优

u011007180的博客

07-17

1730

文章目录 [hide] 1 shuffle调优 1.1 调优概述 1.2 ShuffleManager发展概述 1.3 HashShuffleManager运行原理 1.3.1 未经优化的HashShuffleManager 1.3.2 优化后的HashShuffleManager 1.4 SortShuffleManager运行原理 1.4.1

参与评论您还未登录，请先登录后发表或查看评论

Spark的shuffle调优

12-19

spark.reducer.maxSizeInFlight 48m reduce task的buffer缓冲，代表了每个reduce task每次能够拉取的map side数据最大大小，如果内存充足，可以考虑加大，从而减少网络传输次数，提升性能 spark.shuffle.blockTransferService netty shuffle过程中，传输数据的方式，两种选项，netty或nio，spark 1.2开始，默认就是netty，比较简单而且性能较高，spark 1.5开始nio就是过期的了，而且spark 1.6中会去除掉 spark.shuffle.compress true 是否对map side输出的文件进行压缩，默认是启用压缩的，压缩器是由spark.io.compression.codec属性指定的，默认是snappy压缩器，该压缩器强调的是压缩速度，而不是压缩率

Spark-Suffle调优

星星的博客

10-27

503

Spark之Suffle调优

Spark技术内幕：Shuffle的性能调优

weixin_33712987的博客

01-18

378

通过上面的架构和源码实现的分析，不难得出Shuffle是Spark Core比较复杂的模块的结论。它也是非常影响性能的操作之一。因此，在这里整理了会影响Shuffle性能的各项配置。尽管大部分的配置项在前文已经解释过它的含义，由于这些参数的确是非常重要，这里算是做一个详细的总结。 1.1.1spark.shuffle.manager 前文也多次提到...

spark shuffle调优

03-08

对于spark shuffle调优，我可以给出一些建议。首先，可以通过增加shuffle分区数来提高性能。其次，可以使用合适的数据结构来减少shuffle数据的大小。另外，可以通过调整内存分配和磁盘使用策略来优化shuffle性能。...

Spark性能调优与故障处理之(3)Spark Shuffle 调优

weixin_43520450的博客

09-17

1103

Shuffle 调优一、调节 map 端缓冲区大小二、调节 reduce 端拉取数据缓冲区大小三、调节 reduce 端拉取数据重试次数四、调节 reduce 端拉取数据等待间隔五、调节 SortShuffle 排序操作阈值一、调节 map 端缓冲区大小在 Spark 任务运行过程中，如果 shuffle 的 map 端处理的数据量比较大，但是map 端缓冲的大小是固定的，可能会出现 map 端缓冲数据频繁 spill 溢写到磁盘文件中的情况，使得性能非常低下，通过调节 map 端缓冲的大小，可以避免频

Spark性能调优-Shuffle相关参数配置

Mr.pan felix的专栏

07-15

1069

Spark性能调优之Shuffle调优

hzp666的博客

06-16

526

Spark性能调优之Shuffle调优 •Spark底层shuffle的传输方式是使用netty传输，netty在进行网络传输的过程会申请堆外内存（netty是零拷贝），所以使用了堆外内存。 •shuffle过程中常出现的问题常见问题一：reduce oom? 问题原因： reduce task 去map端获取数据，reduce一边拉取数据一边聚合，reduce端有一块聚合内存（executor memory * 0.2）,也就是这块内存不够 ...

一文搞清楚 Spark shuffle 调优

程序员小陶的大数据分享

04-21

440

Spark shuffle 调优 Spark 基于内存进行计算，擅长迭代计算，流式处理，但也会发生shuffle 过程。shuffle 的优化，以及避免产生 shuffle 会给程序提高更好的性能。因为 shuffle 的性能优劣直接决定了整个计算引擎的性能和吞吐量。下图是官方的说明，1.2 版本之后默认是使用 sort shuffle 。这样会更加高效得利用内存。之前版本默认是 hash s...

Spark调优解决方案（六）之Shuffle调优

xcvbxv01的博客

01-20

904

一、shuffle简介 -------------------------------------------- 1.在spark中，主要是以下几个算子：groupByKey、reduceByKey、countByKey、join，等等。会发生shuffle操作 2.例如，groupByKey，要把分布在集群各个节点上的数据中的同一个key，对应的values，都给集中到一块儿...

万亿级别的shuffle量，Spark SQL 调优

dkk2014的博客

12-10

777

接了一个业务方面的Spark Sql需求，2个大表join. 20e 和90e数据join，无其他复杂逻辑，按固定字段join。由于发生了叉乘。中间结果达到上万亿，12T数据量。 Task很容易失败，查看具体LOG，报一些经典shuffle异常，比如timeout, shuffle lost location。调优思路:让每个task处理更少的数据量（提高并发），减少GC时间，提高程序稳定性（retry和timeout参数配置），shuffle系列参数 1.先查看Spark Web Ui.

【shuffle/内存模型】spark（七）超详细mareduce shuffle和spark Shuffle讲解、以及spark比mapreduce快在哪些方面

hiliang521的博客

09-30

1494

【shuffle/内存模型】超详细mareduce shuffle和spark Shuffle讲解、以及spark比mapreduce快在哪些方面

spark性能优化（一）常规性能优化、RDD算子、Shuffle的调优、JVM调优

qq_44665283的博客

06-13

590

spark性能调优

Spark Shuffle相关参数优化

qq_43012693的博客

12-11

689

原文连接 Spark2.x优化：Shuffle相关参数优化一、前言大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。二、相关参数及优化建议 1.spark.shuffle.file.buffer 默认值： 32KB 参数说明：该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前，会先写入buffer缓冲区中，待缓冲区写满之后，才会溢写到磁盘。

Spark Shuffle剖析

马超的博客

10-22

544

Spark核心计算——shuffle 指定两个task数量。分为两部分shuffle write 和 shuffle read Spark核心计算——shuffle write(hash-based)（逐渐被淘汰基于hash实现的shuffle）一个executor中的两个task，多线程。小文件有大量随机读，占用大量IO。map-task写到bucket的过程中，先写入buffer

figma html