spark应用优化与调优

！@123

已于 2023-09-08 15:04:42 修改

阅读量121

点赞数

分类专栏：大数据文章标签： spark 大数据

于 2023-09-08 15:02:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a123op2346/article/details/132760493

版权

大数据专栏收录该内容

17 篇文章 0 订阅

订阅专栏

一、spark的配置指定

配置文件spark-default.conf

在spark应用内指定或者spark-submit提交应用的命令 --conf指定配置参数

spark-shell编程接口

二、配置的优先级

sparkSession > sparkSubmit > spark-default.conf

三、静态资源配置和动态资源配置

动态资源配置适合一天内作业有高峰期和低谷期的业务。

动态配置：随便写的

spark.dynamicAllocation.enabled true // 默认为false

spark.dynamicAllocation.minExecutors 2

spark.dynamicAllocation.schedulerBacklogTimeout 1m

spark.dynamicAllocation.maxExecutors 20

spark.dynamicAllocation.executorIdleTimeOut 2min

spark在最先启动的时候会申请两个执行器（spark.dynamicAllocation.minExecutors 决定）、

随着任务的积压，每次积压超时时（spark.dynamicAllocation.schedulerBacklogTimeout），驱动器会申请一个新的执行器，以调度任务，直到达到最大的20。如果执行完任务后空闲超过两分钟，驱动器就会关闭这些执行器。

四、spark执行内存和混洗服务

spark.executor.memory 2g 控制执行器的内存

内存组成：运行内存、存储内存、保留内存。

默认先扣除300m的保留内存，剩余60%运行内存，40%存储内存。可以调整每块内存的比例。存储内存没被完全使用时，spark可以将存储内存用作运行内存。

spark.memory.fraction 0.6 运行内存占比

运行内存：进行混洗、排序、链接、集合等操作

存储内存：缓存dataFrame

spark在进行混洗和数据映射时，需要读写大量的本地文件，i/o压力较大，可能会造成性能瓶颈。

i/o参数：

spark.driver.memory 启动器内存大小，接收执行器发送的数据，例如：spark-submit --driver-memory 2g。只有预期驱动器需要回收大量数据（collect操作），或内存不足，可以调整

spark.shuffle.file.buffer：默认32kb，可以修改1MB，允许spark将映射结果写入硬盘前缓冲多少数据

spark.file.transferTo：默认 true。设为false，会强制spark在最终写入用硬盘前使用文件缓冲来传输文件。会降低i/o压力

spark.shuffle.unsafe.file.output.buffer：默认32KB。混洗操作中合并文件时，缓冲区最大值。对于规模较大的作业，可以设置较大的值1MB，较小的值适合规模小的作业

spark.io.compression.lz4.blockSize：默认32kb，建议提高到512kb，增大压缩数据块的大小，可以减少数据混洗文件大小

spark.shuffle.service.index.cache.size：默认100m。缓存条目受限于以字节为单位的给定内存大小。

spark.shuffle.registration.timeout：默认5000ms，建议提高到120000ms

spark.shuffle.registration.maxAttempts：默认3，可以调大小5

五、最大化spark的并发度

spark作业包含多阶段，每个阶段包含多个任务，spark会给每个线程分配一个核心，这个线程一次执行一个任务，每个任务处理一个分区

。理想情况下，分区数至少和核心总数一样。

核心：线程：分区= 1:1:1

spark中分区大小：由spark.sql.file.maxPartitionBytes：控制的，默认为128MB。可以减少这个来提高并发度，但是可能会导致小爱哦文件问题。小文件过多，过量的磁盘i/O会导致操作和性能下降。分布式文件系统中，打开、关闭、文件，列目录等文件系统操作，可能因文件过多变慢。

显式调用dataFrame API 的某些方法，也会创建分区。例：读取大文件或创建大型DataFrame时，可以显示制定分区数量

spark.read.textFile(“…/file”).repartition(16)

混洗分区会在混洗阶段创建，默认情况下，混洗分区个数为200。spark.sql.shuffle.partition决定，根据数据集大小更改。

这些分区时需要进行跨网络传输到其它执行器以用与任务对的执行。

spark.sql.shuffle.partition的200默认值，对于小作业来说有点大，需要降低。

六、缓存和持久化cache（）、persist（）

df.cache() // ds.persist()

df.count()

缓存数据之后，需要将数据进行物化，只有执行了count() 后才算真正的将缓存加载到内存中。take(1)只会缓存一个分区。

cache()

对于cache，尽可能的将所有能读取到的分区都存储到spark执行器的内存中，dataFrame可以被部分缓存，而分区只能被完整的缓存。

8个分区，只能放4.5个，那么只会缓存4个。未缓存的数据需要重新计算

persist（）

允许通过StorageLevel控制数据如何缓存。

MEMORY_ONLY：以对象形式存储到内存

MEMORY_ONLY_Y_SER：数据表示为紧凑的字节数组，仅存储到内存。使用时需要反序列化，有一定的性能开销

MEMORY_AND_DISK：直接以对象形式存储到内存，内存不足，会序列化并存储到硬盘。

DISK_ONLY：数据经序列化后，存储到硬盘

OFF_HEAP：存储到堆外内存。

MEMORY_AND_DISK_SER：类似于MEMORY_AND_DISK，但是数据存储在内存也需要序列化（存储到硬盘，总需要序列化）

数据持久化在硬盘，内存中没有，删除缓存：df.unpersist()

可以缓存dataFrame、也可以缓存表和视图，在sparkui可以看到

七、啥时候持久化

1、迭代式机器学习训练中常用的dataFrame

2、执行etl作业或者构建数据流水线，需要对dataFrame进行转化，并且经常访问的dataFrame

八、不适合持久化

1、dataFrame过大，无法放入内存

2、无论dataFrame大小，仅进行开销不大的转化操作时，dataFrame不会被频繁使用。

九、spark的连接算法

内连接、外连接、左连接、右链接。

这些会引发数据在spark执行器间大量移动。

混洗：spark在进行计groupBy、join、agg、sortBy、reduceByKey等，计算要生成的数据时，数据移动的过程。

十、广播hash连接：

又称：映射端链接。是spark最快和最简单的连接。用于一大一小两个数据集，其中一个数据集能够在驱动器内存和执行器内存放的下，大数据集可以避免数据移动。

小数据集通过spark广播变量从spark驱动器分发到所有的执行器。

当数据集小于10MB时，默认使用广播连接。spark.sql.autoBroadcastJoinThreahold 设置，根据执行器和驱动器的内存，可以对大小进行增减。

啥时候用：

1、spark可以将大小两个数据集的每一对等值键都通过hash算法分配到同一个分区

2、一个数据集比另一个数据集小得多

3、进行等值链接，将两个数据集根据匹配的键无序整合起来

4、无须担心将小数据集广播发送到所有spark执行器而引起的网络宽带过多或内存不足

将spark.sql.autoBroadcastJoinThreahold 设为-1 那么，spark始终会选用混洗排序合并连接。

十一、混洗排序合并连接

排序合并算法是根据公共的键，合并两个数据集的高效方法，公共键可能需要排序、不重复、且能发送到同一个分区。

两个数据集的公共键，通过hash算法必须分入同一个分区。

这意味着所有相同键的行，经过hash算法后，必须出现在spark的同一个执行器的同一个分区内。显然执行器之间是需要进行数据交换的，以便将数据放在一起。

分为两个阶段：排序阶段、合并阶段。

默认情况下SortMergeJoin是启用的，控制参数为spark.sql.join.preferSortMergeJoin

如果提前根据键对数据进行分桶和排序，则可以避免spark执行器之间的数据交换（可以避免spark的Exchange 和 sort阶段）。

十二、什么时候使用混洗排序合并连接：

1、可以通过相同的键将大数据集的数据通过hash算法将hash相等的数据分到同一个分区

2、仅基于匹配的排序连接键使用等值连接来整合数据集

3、希望避免exchange和sort操作

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark应用优化与调优

spark优化
复制链接

扫一扫

专栏目录

！@123 CSDN认证博客专家 CSDN认证企业博客

码龄6年

43: 原创

27万+: 周排名

19万+: 总排名

1万+: 访问

: 等级

483: 积分

19: 粉丝

49: 获赞

14: 评论

51: 收藏

私信

关注

热门文章

分类专栏

大数据 17篇
jvm 1篇
java 4篇
mysql 1篇
docker 5篇
docker-compose 5篇
linux 1篇
笔记 5篇
k8s 3篇

最新评论

linux部署kafka集群
CSDN-Ada助手: 恭喜您写下了第18篇博客！看到您分享关于“linux部署kafka集群”的内容，我真是受益匪浅。您的经验和知识分享对于我们这些对kafka集群部署不太了解的人来说非常有帮助。在接下来的创作中，我想提个谦虚的建议。或许您可以考虑分享一些关于kafka集群稳定性的经验，或者讨论一些常见的问题和解决方案。当然，这只是一个建议，我知道您一定还有很多其他精彩的主题等待我们去探索。再次感谢您的分享，期待您的下一篇博客！
docker-compose部署redis
CSDN-Ada助手: 恭喜您写了第11篇博客！标题为“docker-compose部署redis”，我很高兴看到您持续创作并分享有关Docker和Redis的经验。您的博客对于那些希望了解如何使用docker-compose来部署Redis的人们来说一定非常有帮助。在下一步的创作中，我建议您可以考虑探索更多关于Redis的主题，如缓存策略、持久化、高可用性等方面的内容。此外，您还可以尝试与其他容器化工具或技术进行整合，例如使用Kubernetes部署Redis集群。再次恭喜您的努力和成果，期待看到您未来更多精彩的博客！
docker-compose部署es+kibana
CSDN-Ada助手: 恭喜您写了第12篇博客，标题为“docker-compose部署es+kibana”。我非常欣赏您分享这样有价值的内容，尤其是介绍了如何使用docker-compose来部署es和kibana。这对于那些想要搭建自己的数据分析环境的人来说非常有帮助。在下一步的创作中，我想建议您考虑深入探讨如何优化和扩展这个部署方案。比如，您可以分享如何配置集群、添加安全性措施以及实现高可用性。这些内容将进一步拓宽读者的视野，让他们更好地应用于实际生产环境中。再次恭喜您的连续创作，期待您的下一篇博客！请继续保持谦虚的态度，我们都在学习中不断进步。
docker-compose部署nginx
CSDN-Ada助手: 恭喜您写了第13篇博客！标题为“docker-compose部署nginx”，我很高兴看到您持续创作并分享有关Docker和nginx的经验。正如您所提到的，使用docker-compose部署nginx确实是一种方便且高效的方式。在接下来的创作中，我建议您可以探索一下与nginx相关的进阶主题，比如如何配置反向代理、负载均衡和SSL证书等。这些主题将进一步加强您的文章内容，为读者提供更全面的指导。谦虚地说，我相信您对这些主题的理解和实践会给读者带来很大的帮助。期待您的下一篇博客！
centos7安装jdk1.8
CSDN-Ada助手: 恭喜您写了第14篇博客！看到您分享有关centos7安装jdk1.8的经验，我感到非常高兴。您的文章对于那些需要在centos7上安装jdk1.8的读者来说，肯定会非常有帮助。在下一步的创作中，我建议您可以继续深入探讨jdk1.8的一些常见问题和应用场景，或者提供一些与centos7配套使用的其他开发工具或框架的安装教程。这样，读者可以更全面地了解和掌握相关知识。再次恭喜您的持续创作，期待您更多精彩的博客文章！谦虚的语气也希望您能保持，因为您的分享对于我们这些读者来说真的非常有价值。加油！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。