介绍 Qubole 的 Spark 调整工具

Qubole的Spark调优工具Sparklens已开源,通过监听Spark应用运行提供洞察,帮助优化配置,提高执行器利用率。该工具能分析任务并行性、倾斜和资源利用,指导用户减少资源浪费和提升性能。
摘要由CSDN通过智能技术生成

更新

Qubole 的 Spark 调优工具现已开源并命名为Sparklens。要做出贡献,请查看https://github.com/qubole/sparklens 的源代码。要使用Sparklens分析您的Spark应用程序,只需将以下附加配置参数添加到 spark-submit 或 spark-shell:

--packages qubole:sparklens:0.1.2-s_2.11
--conf spark.extraListeners=com.qubole.sparklens.QuboleJobListener

Spark已被证明是处理 TB 或更大的大型数据集的出色引擎。由于大规模分布式和并行化设置中的容错数据处理,其应用程序适用于从机器学习和高级分析到大规模 ETL 批量转换的所有领域。然而,Spark 的一个缺陷是它在配置和争论方面是一头野兽。如果操作不当,大规模运行不同工作负载所需的大量配置可能会使其不稳定。

现在,我们通过托管的自动扩展解决方案使这个过程更加自助化,以便在您首选的云基础设施中运行 Spark。为了实现这一使命,我们构建了一个基于 Spark 侦听器框架的工具,该工具仅通过查看应用程序的一次运行来提供有关给定 Spark 应用程序的洞察力。

用户在配置和运行Spark 应用程序时面临的常见问题之一是决定执行程序的数量或应用程序应使用的内核数量。通常,这个过程是通过反复试验来完成的,这需要时间并且需要运行超出正常使用范围的集群(读取浪费的资源)。此外,它没有告诉我们去哪里寻找进一步的改进。使用 Qubole 的 Spark Tuning Tool 来优化生产中的 Spark 作业。

2018年1月22日由罗希特Karlupia,Qubole和Shefali AGGARWAL 更新2021年9月4日
更新:Qubole 的 Spark 调优工具现已开源并命名为Sparklens。要做出贡献,请查看https://github.co

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值