Spark的数据本地化级别及调优操作

最新推荐文章于 2022-08-21 23:20:47 发布

weixin_30585437

最新推荐文章于 2022-08-21 23:20:47 发布

阅读量131

点赞数

原文链接：http://www.cnblogs.com/eric666666/p/11301266.html

版权

1. 数据本地化的级别：

① PROCESS_LOCAL

task要计算的数据在本进程（Executor）的内存中。

② NODE_LOCAL

a) task所计算的数据在本节点所在的磁盘上。

b) task所计算的数据在本节点其他Executor进程的内存中。

③ NO_PREF

task所计算的数据在关系型数据库中，如mysql。

④ RACK_LOCAL

task所计算的数据在同机架的不同节点的磁盘或者Executor进程的内存中

⑤ ANY

跨机架。

2. Spark数据本地化调优：

Spark中任务调度时，TaskScheduler在分发之前需要依据数据的位置来分发，最好将task分发到数据所在的节点上，如果TaskScheduler分发的task在默认3s依然无法执行的话，TaskScheduler会重新发送这个task到相同的Executor中去执行，会重试5次，如果依然无法执行，那么TaskScheduler会降低一级数据本地化的级别再次发送task。

如上图中，会先尝试1,PROCESS_LOCAL数据本地化级别，如果重试5次每次等待3s,会默认这个Executor计算资源满了，那么会降低一级数据本地化级别到2，NODE_LOCAL,如果还是重试5次每次等待3s还是失败，那么还是会降低一级数据本地化级别到3，RACK_LOCAL。这样数据就会有网络传输，降低了执行效率。

① 如何提高数据本地化的级别？

可以增加每次发送task的等待时间（默认都是3s），将3s倍数调大，结合WEBUI来调节：

• spark.locality.wait

• spark.locality.wait.process

• spark.locality.wait.node

• spark.locality.wait.rack

注意：等待时间不能调大很大，调整数据本地化的级别不要本末倒置，虽然每一个task的本地化级别是最高了，但整个Application的执行时间反而加长。

② 如何查看数据本地化的级别？

通过日志或者WEBUI

转载于:https://www.cnblogs.com/eric666666/p/11301266.html

weixin_30585437

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。