「Spark从精通到重新入门(二)」Spark中不可不知的动态资源分配

最新推荐文章于 2024-08-28 17:47:40 发布

尔达 Erda

最新推荐文章于 2024-08-28 17:47:40 发布

阅读量2.9k

点赞数 3

文章标签： spark big data 大数据

本文链接：https://blog.csdn.net/m0_59358648/article/details/121950398

版权

本文介绍了 Spark 中的动态资源分配，旨在解决资源浪费和调度不合理的问题。通过动态分配，已空闲的 Executor 在超过一定时间后会被回收，并在需要时重新申请，实现集群资源的高效利用。文章详细讲解了动态分配的原理，配置参数，以及实战演示，展示了在 Spark 3.0 中动态资源分配对改善集群效率的作用。

摘要由CSDN通过智能技术生成

前言

资源是影响 Spark 应用执行效率的一个重要因素。Spark 应用中真正执行 task 的组件是 Executor，可以通过spark.executor.instances 指定 Spark 应用的 Executor 的数量。在运行过程中，无论 Executor上是否有 task 在执行，都会被一直占有直到此 Spark 应用结束。

上篇我们从动态优化的角度讲述了 Spark 3.0 版本中的自适应查询特性，它主要是在一条 SQL 执行过程中不断优化执行逻辑，选择更好的执行策略，从而达到提升性能的目的。本篇我们将从整个 Spark 集群资源的角度讨论一个常见痛点：资源不足。

在 Spark 集群中的一个常见场景是，随着业务的不断发展，需要运行的 Spark 应用数和数据量越来越大，靠资源堆砌的优化方式也越来越显得捉襟见肘。当一个长期运行的 Spark 应用，若分配给它多个 Executor，可是却没有任何 task 分配到这些 Executor 上，而此时有其他的 Spark 应用却资源紧张，这就造成了资源浪费和调度不合理。

要是每个 Spark 应用的 Executor 数也能动态调整那就太好了。

动态资源分配（Dynamic Resource Allocation）就是为了解决这种场景而产生。Spark 2.4 版本中 on Kubernetes 的动态资源并不完善，在 Spark 3.0 版本完善了 Spark on Kubernetes 的功能，其中就包括更灵敏的动态分配。我们 Erda 的 FDP 平台（Fast Data Platfor