spark standalone 读取 HDFS 数据本地性异常

最新推荐文章于 2024-11-05 10:15:22 发布

breeze_lsw

最新推荐文章于 2024-11-05 10:15:22 发布

阅读量3k

点赞数

CC 4.0 BY-SA版权

分类专栏： Spark 文章标签： spark locality

本文链接：https://blog.csdn.net/lsshlsw/article/details/48711519

90 篇文章

订阅专栏

本文探讨了Spark在分布式计算中的数据本地性问题及其对计算效率的影响。针对数据读取阶段出现的网络IO瓶颈，提出了通过调整slave标识启动方式来提高数据本地性，从而显著提升了任务执行效率。此外，还讨论了数据本地性的副作用及如何通过参数调整解决由此引发的问题。

在分布式计算中，为了提高计算速度，数据本地性是其中重要的一环。
不过有时候它同样也会带来一些问题。

在分布式计算中，大多数情况下要做到移动计算而非移动数据，所以数据本地性尤其重要，因此我们往往也是将hdfs和spark部署在相同的节点上，有些人可能会发现即使他已经这么做了，在spark的任务中的locality还是ANY，这说明所有的数据都是走的网络IO。

ANY

在没有没有shuffle的情况下，仅在数据读取阶段网络IO占用都很严重，可以看下ganglia的监控，最高峰出现在读取数据阶段
ganglia

后来发现slave的标识都是ip

这里写图片描述

而hdfs以hostname作为slave标示，所以改变启动slave的方式

start-slave.sh -h <hostname> <master>

启动后

这里写图片描述

再运行任务就变成了NODE_LOCAL,效率有了极大的提升

这里写图片描述

大多数情况下，数据本地性可以减少网络的IO，提高程序整体的运行效率。不过在一些比较特殊的情况下(Spark的延时调度)，他反而会拖累整体运行速度。

taskSetManager在分发任务之前会先计算数据本地性，优先级依次是：

process(同一个executor) -> node_local(同一个节点) -> rack_local(同一个机架) -> any(任何节点)

Spark会优先执行高优先级的任务，如果一个task运行的时间很短（小于设置的spark.locality.wait时间），则数据本地性下一级别的任务则一直不会启动，这就是Spark的延时调度机制。

举个极端例子：运行一个count任务，如果数据全都堆积在某一台节点上，那将只会有这台机器在长期执行任务，集群中的其他机器则会处于等待状态（等待本地性降级）而不执行任务，造成了大量的资源浪费。

判断的公式为：

curTime – lastLaunchTime >= localityWaits(currentLocalityIndex)

其中 curTime 为系统当前时间，lastLaunchTime 为在某优先级下最后一次启动task的时间

如果满足这个条件则会进入下一个优先级的时间判断，直到 any，不满足则分配当前优先级的任务。

数据本地性任务分配的源码在 taskSetManager.scala 。

如果存在大量executor处于等待状态，可以降低以下参数的值（也可以设置为0），默认都是3s。

spark.locality.wait
spark.locality.wait.process
spark.locality.wait.node
spark.locality.wait.rack

当你数据本地性很差，可适当提高上述值，当然也可以直接在集群中对数据进行balance。