Spark调优：数据本地化（调优）

最新推荐文章于 2023-07-02 23:27:06 发布

花和尚也有春天

最新推荐文章于 2023-07-02 23:27:06 发布

阅读量782

点赞数

分类专栏： Spark调优文章标签：数据本地化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38750084/article/details/83187264

版权

Spark调优专栏收录该内容

7 篇文章 2 订阅

订阅专栏

数据本地化的级别：

PROCESS_LOCAL

task要计算的数据在本进程（Executor）的内存中。

NODE_LOCAL

task所计算的数据在本节点所在的磁盘上。
task所计算的数据在本节点其他Executor进程的内存中。

NO_PREF

task所计算的数据在关系型数据库中，如mysql。

RACK_LOCAL

task所计算的数据在同机架的不同节点的磁盘或者Executor进程的内存中

ANY

跨机架。

Spark数据本地化调优：

Spark中任务调度时，TaskScheduler在分发之前需要依据数据的位置来分发，最好将task分发到数据所在的节点上，如果TaskScheduler分发的task在默认3s依然无法执行的话，TaskScheduler会重新发送这个task到相同的Executor中去执行，会重试5次，如果依然无法执行，那么TaskScheduler会降低一级数据本地化的级别再次发送task。

如上图中，会先尝试1,PROCESS_LOCAL数据本地化级别，如果重试5次每次等待3s,会默认这个Executor计算资源满了，那么会降低一级数据本地化级别到2，NODE_LOCAL,如果还是重试5次每次等待3s还是失败，那么还是会降低一级数据本地化级别到3，RACK_LOCAL。这样数据就会有网络传输，降低了执行效率。

如何提高数据本地化的级别？

可以增加每次发送task的等待时间（默认都是3s），将3s倍数调大，结合WEBUI来调节：

• spark.locality.wait

• spark.locality.wait.process

• spark.locality.wait.node

• spark.locality.wait.rack

注意：等待时间不能调大很大，调整数据本地化的级别不要本末倒置，虽然每一个task的本地化级别是最高了，但整个Application的执行时间反而加长。

如何查看数据本地化的级别？

通过日志或者WEBUI

花和尚也有春天

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark调优：数据本地化（调优）

数据本地化的级别：PROCESS_LOCALtask要计算的数据在本进程（Executor）的内存中。NODE_LOCALtask所计算的数据在本节点所在的磁盘上。 task所计算的数据在本节点其他Executor进程的内存中。NO_PREFtask所计算的数据在关系型数据库中，如mysql。RACK_LOCALtask所计算的数据在同机架的不同节点的磁盘...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。