通过WebUI查看Structured Streaming作业统计信息

前言

从EMR-3.18.1版本开始,EMR将提供Spark Streaming SQL预览版功能。本次作为新特性的一部分,EMR将扩展现有Spark WebUI,支持Structured Streaming Query的统计信息查看。

功能介绍

Query列表

我们在现有Spark WebUI上新增了streamingsql Tab,用于展示当前作业中进行中以及完成的Streaming Query。

URL地址:http://${baseUrl}/streamingsql

image

Active Streaming Queries:当前正在运行的query
Completed Streaming Queries:已完成的query,包括结束的和失败的query

列名说明
Query Name查询Name,通过“SET streaming.query.name=${QUERY_NAME}”指定。
Status当前运行状态,包括RUNNING,FAILED和FINISHED。
IdQuery ID,保存到checkpoint中,多次运行同一个query, id保持不变。
Run IDQuery Run ID,每次重新运行query,都会重新生成一个Run ID。
Submit Time当前Query提交执行的时间。
Duration当前Query运行时间。
Avg Input PerSec最近"spark.sql.streaming.numRecentProgressUpdates"个批次的平均数据输入速率。默认最近100个批次统计信息。
Avg Process PerSec最近"spark.sql.streaming.numRecentProgressUpdates"个批次的平均数据处理速率。默认最近100个批次统计信息。
Total Input Rows最近"spark.sql.streaming.numRecentProgressUpdates"个批次的数据条数总和,注意不是Query运行期间的数据条数总和。默认最近100个批次统计信息。
Last Batch ID最近一次完成的Batch ID。
Last Progress最近一次批次的执行信息。
ERROR如果Query失败,展示摘要错误信息。


支持在界面上kill某个query。​
image

kill之后状态变为“FINISHED”:
image

Query统计详情

通过点击Query的RunID,可以查看当前Query的运行统计信息,包括:Input Rate,Process Rate,Input Rows的时序变化,以及每个批次的Duration堆栈图,包括WalCommit,QueryPlanning,GetOffset,GetBatch以及AddBatch。

URL地址:http://${baseUrl}/streamingsql/statistics?id=9d7e9076-f96a-4d19-9f82-460b5af57daa

image

image

我们可以查看任意时间的Batch的各个执行阶段的时间消耗。

image

同样的,这里将只会展示“spark.sql.streaming.numRecentProgressUpdates”个Batch的统计信息。如果需要查看更长周期内的统计信息,可以设置“spark.sql.streaming.numRecentProgressUpdates”为更大值。需要注意的是,这会带来一定的内存开销。

小结

以上简单演示了Structured Streaming Query的管理和统计信息查看功能。当前Spark Streaming SQL处于预览阶段,我们将在UI上集成更多有用的信息,方便大家查看和监控作业的运行状态。

本文转载自:https://yq.aliyun.com/articles/691416

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值