Spark的数据本地化

数据本地化对于Spark Job性能有着巨大影响。如果数据以及要计算它的代码是在一起的,那么性能必然会很高,若不在一起,则其中之一必须移动到另外一方机器上,通常移动代码的速度会快得多。Spark基于这个数据本地化的原则来构建task调度算法的。
数据本地化:数据离计算它的代码有多近。基于数据距离代码的距离,有几种数据本地化级别:
1. PROCESS_LOCAL :数据和计算它的代码在同一个JVM进程中。
2. NODE_LOCAL : 数据和计算它的代码在同一个节点,但不在同一个进程中,比如在不同的executor进程中,或者是数据在HDFS文件的block中。
3. NO_PREF : 从任何地方访问数据速度都是一样,不关心数据的位置。
4. RACK_LOCAL : 数据和计算它的代码在一个机架上。
5. ANY : 数据可能在任何地方,比如其他网络环境内,或者其他机架上。
越往前的级别等待时间应该设置的长一点,因为越是前面性能越好
Spark数据本地化配置参数

spark.locality.wait:
在放弃并在较低本地节点上启动数据本地任务之前需要等待多长时间才能启动数据本地任务。 将使用相同的等待来遍历多个地点级别(过程本地,节点本地,机架本地,然后任何)。 也可以通过设置spark.locality.wait.node等来自定义每个级别的等待时间。如果你的任务很长,看到的是不好的局部性,你应该增加这个设置,但是默认情况下通常工作的很好。
spark.locality.wait.node:
自定义局部节点等待节点局部性。 例如,您可以将其设置为0以跳过节点位置并立即搜索机架位置(如果您的群集具有机架信息)。
spark.locality.wait.process
定制本地等待进程本地化。 这会影响尝试访问特定执行程序进程中的缓存数据的任务。
spark.locality.wait.rack
自定义本地等待机架位置。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值