概述
本文主要介绍X-Pack Spark集群监控指标的查看方法。Spark集群对接了Ganglia和云监控。下面分别介绍两者的使用方法。
Ganglia
Ganglia是一个分布式监控系统。
Ganglia 入口
打开Spark集群依次进入:数据库连接>UI访问>详细监控UI>Ganglia。如下图:
注意:打开之前请先阅读UI访问说明(https://help.aliyun.com/document_detail/119580.html?spm=a2c4e.11153940.0.0.20a95adasyFe7q)
Ganglia 界面介绍
本只做常用的介绍。如下图:
- 导航栏
- 选择不同的功能查看,本文主要介绍常用的“Main”
- 时间选择
- 选择查看不同的时间段的资源使用情况。
- 统计信息
- 统计信息主要列出集群的资源总体使用情况。每个字段解释如下表:
注意:这里有两个统计信息:MyGrid Grid 和 spark_cluster。spark_cluster 是MyGrid的子集,由于只有一个spark集群所以这里MyGrid Grid和spark_cluster是一样的,只需要看MyGrid Grid即可。
- 图展示区
- 图展示区有4个图分别为:
分别点击每个图,可以看到更详细的信息。例如点击“MyGrid Grid Memory last hour”,如下图:
云监控
云监控入口
打开Spark集群依次进入:监控与报警>跳转至云监控。如下图:
云监控界面介绍
进入云监控后看到如下界面:
- 时间选择
- 选择查看不同的时间段的资源使用情况。
- 指标分组
- 系统指标:用于展示Spark集群的负载、CPU、网络、磁盘空间的使用率趋势图。
- HBase指标:用于统计HBase集群的指标,Spark集群不用查看。
- 分析集群指标:用于展示Spark Yarn任务的失败次数、完成次数、Pending次数、kill次数的趋势图;以及可用内存和可用Vcore的趋势图。
- 图标图例
- 每个图例代表Spark集群节点的机器名称,本实例的Spark集群有4个节点,名称分别为:spark-master1-1、spark-master2-1、spark-master3-1和spark-core-1。
小结
本文介绍了X-Pack Spark监控的入门使用。关于Ganglia的详细介绍可以参考Ganglia的官网。X-Pack Spark的使用请参考:X-Pack Spark(https://help.aliyun.com/document_detail/93899.html?spm=a2c4e.11153940.0.0.20a95adasyFe7q)
本文为云栖社区原创内容,未经允许不得转载。