Sparklens是什么?
Sparklens是一个内置 Spark 调度器模拟器的 Spark 分析工具:它可以更容易地理解 Spark 应用程序的可扩展性限制。它有助于了解给定的 Spark 应用程序使用提供给它的计算资源的效率如何。它已在Qubole实施并维护。它是开源的(Apache 许可证 2.0)并已在 Scala 中实现。
Sparklens 的一个有趣特性是它能够通过单次运行 Spark 应用程序生成估计值. 它报告信息,例如估计完成时间和估计的集群利用率与不同数量的执行程序,一个作业/阶段时间线,显示如何在作业中安排并行阶段,以及许多有趣的每个阶段指标。
Sparklens使用方法
有四种使用 Sparklens 的方法:
- 实时模式
- 离线模式
- 在事件历史文件上运行
- 笔记本
下面说下实时和离线模式
实时模式
Sparklens 可以使用以下选项在应用程序执行时运行(对于 spark-submit 和 spark-shell):
--packages qubole:sparklens:0.2.1-s_2.11
--conf spark.extraListeners=com.qubole.sparklens.QuboleJobListener
或通过编程方式将Sparklens依赖项添加到Java / Scala项目中(这是Maven的示例):
<repositories>
<!-