spark.shuffle.service.enabled使用

尘世壹俗人

已于 2025-02-26 18:29:34 修改

阅读量3.5k

点赞数 1

分类专栏：大数据Spark技术文章标签： spark

于 2021-03-12 16:15:59 首次发布

本文链接：https://blog.csdn.net/dudadudadd/article/details/114698915

版权

大数据Spark技术专栏收录该内容

51 篇文章

订阅专栏

通常情况下，这说的是NodeManager中一个长期在运行的辅助服务，用于提升Shuffle计算性能。默认为false，表示不启用该功能，他对计算任务本身不是很友好

之所以一般不开启，是因为它提升的只是executor在GC或者其他原因无法向外提供数据的时候，使用一个辅助服务去从executor拿数据为其他需要的地方，而且不使用它的原因，最主要的还是它的使用需要拥有外部辅助shuffle服务，比如yarn的NodeManager中的External shuffle Service服务

如果你在on yarn模式使用它，你需要在yarn-site.xml中配置如下信息

<property>
	<name>yarn.nodemanager.aux-services</name>
	<value>mapreduce_shuffle,spark_shuffle</value>
</property>
<property>
	<name>yarn.nodemanager.aux-services.spark_shuffle.classpath</name>
	<value>/opt/hadoop/share/hadoop/yarn/spark-3.2.1-yarn-shuffle.jar</value>
</property>
<property>
	<name>yarn.nodemanager.aux-services.spark_shuffle.class</name>
	<value>org.apache.spark.network.yarn.YarnShuffleService</value>
</property>

对于spark来说你需要在spark-defaults.conf中添加如下配置

spark.shuffle.service.enabled   true
spark.shuffle.service.port      7337

这两个配置是个是开启这个任务，一个是服务的端口

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

尘世壹俗人

关注关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark 之 Shuffle & AQE

zhixingheyi_tian的博客

06-03

2645

shuffle

Spark Shuffle模块详解

晓晓的天空

03-17

1438

Spark Shuffle模块详解

参与评论您还未登录，请先登录后发表或查看评论

176、Spark运维管理进阶之作业资源调度yarn模式下使用动态资源分配

ZJ__ZFH的博客

02-11

345

先停止之前为standalone集群启动的shuffle service，./sbin/stop-shuffle-service.sh 然后进行配置动态资源分配功能使用的所有配置，都是以spark.dynamicAllocation作为前缀的。要启用这个功能，你的作业必须将spark.dynamicAllocation.enabled设置为true。此外，你的作业必须有一个外部shuffle...

spark spark.shuffle.service.enabled

weixin_38751513的博客

11-19

5909

操作场景 Spark系统在运行含shuffle过程的应用时，Executor进程除了运行task，还要负责写shuffle数据，给其他Executor提供shuffle数据。当Executor进程任务过重，导致GC而不能为其他Executor提供shuffle数据时，会影响任务运行。 External shuffle Service是长期存在于NodeManager进程中的一个辅助服务。通过该服务...

spark.shuffle.service.enabled配置详解

m0_46142780的博客

05-29

1317

spark.shuffle.service.enabled https://www.jianshu.com/p/5749ad5d48e6

Spark学习笔记之-Spark on yarn（External Shuffle Service）

dandykang的博客

09-01

8735

Spark系统在运行含shuffle过程的应用时，Executor进程除了运行task，还要负责写shuffle 数据，给其他Executor提供shuffle数据。当Executor进程任务过重，导致GC而不能为其他Executor提供shuffle数据时，会影响任务运行。这里实际上是利用External Shuffle Service 来提升性能，External s

Spark2.0 shuffle service

houzhizhen的专栏

11-14

1620

/** Provides an interface for reading shuffle files, either from an Executor or external service. */ public abstract class ShuffleClient implements Closeable { /** * Initializes the ShuffleClien

使用调度器运行jar包(scala代码)踩坑记录(jar包找不到主类、spark.shuffle.service.enabled未开启)

inori1256的博客

08-01

950

研究一段时间发现，这与maven打包插件的机制有关，因为我在写代码的时候，使用的local是一直在运行测试的，运行测试的过程中就会产生编译后的.class文件，maven在打包的时候，如果有target的文件，是直接把tartget里编译好的写入jar包里的，如果没有，maven才会重新编译打包。我把打完的jar包打开看了一下，确实没有这个类，不仅如此，我的代码甚至没有被编译成.class文件，但是在把master改成yarn前的代码，是有被编译成.class的，类都是有的。它要是再不好，我都要红温了。

spark-ExternalShuffleService配置使用及性能提升

04-07

Spark ExternalShuffleService 配置使用及性能提升 Spark ExternalShuffleService 是一个长期存在于 NodeManager 进程中的辅助服务，旨在提升 Spark 系统中 Shuffle 计算的性能。该服务可以减少 Executor 的压力，...

CDH之HIVE-ON-SPARK、Spark配置

ArYe

06-05

2590

hive on spark spark.driver.memory spark.executor.cores spark.executor.instances shuffle 动态分配

Spark Shuffle服务和客户端

大冰的小屋

09-11

3112

BlockTransferServiceSpark是分布式部署的，每个Task最终都运行在不同的机器节点上。map任务的输出结果直接存储到map任务所在的机器的存储体系中，reduce任务很可能不在同一台机器上运行，所以需要远程下载map任务的中间输出。ShuffleClient不仅将shuffle文件上传到其他Executor或者下载到本地的客户端，也提供了可以被其他Executor访问的shuf

spark外置external shuffle service使用介绍

三劫散仙

06-27

1823

默认情况下，MR任务shuffle都是由当前任务内部完成的，也就是启动了一个spark job，这个job在内部就可完成整个shuffle流程，也就是实时对接的模式，类似快递小哥送快递给你，到你家楼下打电话给你，不见你面他就一直等着你，直到你来了之后，他把快递亲自交到你的手中，他才可以去干下一件快递的排送，这种模式就是默认shuffle的工作原理。外部独立的shuffle服务的存储可以不占用YARN内部的本地磁盘，使用独立的SSD磁盘或者SSD的云存储再配上100G的网络带宽来加速shuffle处理性能。

spark shuffle服务开启

weixin_34194087的博客

09-30

784

在提交了一个spark任务后，发现卡在了这一步，看意思是不打算分配资源给这个任务了。看字面意思是RM已经收到了请求，只是不给它而已，就有两种可能一是资源不足，而是没联系上AM。然后下面告诉我们压根就没发现nodemanager 在启动Hadoop之后，发现nodemanager节点并未启动起来，于是对Hadoop进行初始化并启动，但发现启动Hadoo...

Spark技术内幕：Shuffle的性能调优

weixin_33712987的博客

01-18

410

通过上面的架构和源码实现的分析，不难得出Shuffle是Spark Core比较复杂的模块的结论。它也是非常影响性能的操作之一。因此，在这里整理了会影响Shuffle性能的各项配置。尽管大部分的配置项在前文已经解释过它的含义，由于这些参数的确是非常重要，这里算是做一个详细的总结。 1.1.1spark.shuffle.manager 前文也多次提到...

Spark的shuffle实现

stevekangpei的博客

07-31

350

Spark的shuffle实现：BackGround在MapReduce框架中，shuffle是连接Map和Reduce之间的桥梁，Map的输出要用到Reduce中必须经过shuffle这个环节，shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现，自然也实现了shuffle的逻辑，本文就深入研究Spark的shuffle是如何实现的，有什么优缺点

从Spark Shuffle RDD到Shuffle Service on Yarn 源码阅读二

心中永远的正能量

11-16

820

从Spark Shuffle RDD到Shuffle Service on Yarn 源码阅读二涉及内容从Task执行，到RDD的读取，以及Shuffle数据的获取。本章主要从第二部分入手 Task体系一 ShuffleMapTask的读和写二 Shuffle Block的读和写三 External Shuffle Service的设计引子上一章完成了从ShuffledRDD到Shu...

Spark Shuffle详解

xianrenqiu1234的博客

05-21

129

从Spark Shuffle RDD到Shuffle Service on Yarn 源码阅读一

心中永远的正能量

11-10

831

@TOC从Spark Shuffle RDD到Shuffle Service on Yarn 源码阅读从Spark Shuffle RDD到Shuffle Service on Yarn 源码阅读涉及内容从Task执行，到RDD的读取，以及Shuffle数据的获取。 Task体系 ShuffleMapTask的读和写 Shuffle Block的读和写 External Shuffle Ser...

/usr/bin/spark2-submit --queue root.yarn_appcc --jars $libpath/ojdbc14-10.2.0.4.0.jar,$libpath/OracleDateTypeInit.jar,$libpath/mysql-connector-java-5.1.39.jar,$libpath/aviator-4.2.8.jar --files $confFileName --conf spark.port.maxRetries=256 --conf spark.sql.shuffle.partitions=200 --conf spark.rpc.netty.dispatcher.numThreads=10 --conf spark.driver.extraJavaOptions="-XX:PermSize=2g -XX:MaxPermSize=2g -Xss4096k" --num-executors $max_executors --executor-cores $max_cores --executor-memory ${executor_memory}G --driver-memory 6G --class $fullclassname $jarname $startDate $endDate 在适当的地方新增动态资源关闭命令

最新发布

03-29