磁盘IO对spark的影响

breeze_lsw

于 2015-11-26 14:34:12 发布

阅读量4.4k

点赞数

CC 4.0 BY-SA版权

分类专栏： Spark 文章标签： spark 优化 spark磁盘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lsshlsw/article/details/50055599

Spark 专栏收录该内容

90 篇文章

订阅专栏

本文探讨了在Spark计算框架中，如何通过增加硬盘数量、使用SSD、压缩数据等手段来优化磁盘I/O，并介绍了减少shuffle操作的方法，进一步讨论了网络I/O的优化策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

红框圈起来的是3块硬盘的机器，其余的是单硬盘的机器。

可以看到在3硬盘的机器的处理速度是单硬盘机器的2-3倍。

同时shuffle的性能也有很大提高
这里写图片描述

为了数据的本地性(减少网络io)，hdfs与spark往往都是在一个集群中。磁盘io不足还会影响到hdfs的读取与结果的存放。导致cpu长期等待浪费计算性能。

当磁盘io成为程序瓶颈的解决方法：

1.使用多块硬盘（最简单有效）,可以使用ssd存放部分spark计算的中间结果。

2.通过压缩减少本地磁盘IO,对计算的中间结果压缩，在取数据时还要进行解压。

spark.shuffle.spill.compress true（默认）

3.优化程序，减少shuffle

通过压缩的两个配置其实使用cpu换磁盘io和网络io,如果在磁盘io不是瓶颈的计算密集型作业中，如此设置反而会降低运行效率。所以应观察应用，根据情况进行调整。

网络IO优化

通过压缩减少网络IO，减少即将进行shuffle的本地数据。
这样需要shuffle的数据就需要压缩->网络传输->解压缩三个步骤

spark.shuffle.compress true（默认）

可以监控网卡使用情况，根据实际情况修改参数

这里写图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。