StarRocks Grafana 监控指标介绍

shemplle

已于 2022-08-24 14:47:48 修改

阅读量2.9k

点赞数 4

分类专栏： StarRocks 文章标签： java jvm linux

于 2022-06-29 20:59:23 首次发布

原文链接：https://blog.csdn.net/ucanuup_/article/details/121246941

版权

StarRocks 专栏收录该内容

4 篇文章 6 订阅

订阅专栏

请添加图片描述

Cluster Number : 集群数量
Frontends Status : Frontend 的状态
Backends Status : Backend 的状态
Cluster FE JVM Heap Stat : 每个 StarRocks 集群的每个 FE 的 JVM 堆使用百分比。
Cluster BE CPU ldle : 每个 StarRocks 集群的 BE CPU 空闲情况
Cluster BE Mem Stat : 每个 StarRocks 集群的 BE 内存使用情况概览。

请添加图片描述

Cluster QPS Stat : 按集群分组的 QPS 统计信息。每个集群的 QPS 是在所有FE处理的所有查询的总和。
Disk Stat : 磁盘状态。绿色点表示该磁盘处于联机状态。红点表示该磁盘处于离线状态，处理离线状态的磁盘表示可能磁盘损坏，需要运维修复或者更换磁盘进行处理。

请添加图片描述

FE Node：总的FE节点数
FE Alive：当前正常的FE节点数
BE Node：集群中BE的节点总数
BE Alive：当前集群中正常存活的BE节点数，如果这个数量和BE Node的数量不一致说明集群中有掉线的BE节点，需要去查看处理
Uesd Capacity：当前集群已使用的磁盘空间
Total Capacity：集群整体存储空间

请添加图片描述

Max Replayed journal id : StarRocks FE 的最大重播元数据日志 ID。正常Master的journal id最大，其他非Master FE节点的这个值基本保持一致，小于Master节点的这值，如果有FE节点这个值和其他节点差别特别大，说明这个节点元数据版本太旧，数据会存在不一致的情况，这种情况下可以将该节点从集群中删除，然后在作为一个新的FE节点加入进来，这样正常情况下这个值和其他节点就会保持一致。
Image counter : StarRocks Master FE 元数据image生成计数器。并且 Image 计数器成功推送到其他非Master节点。这些指标预计会以合理的时间间隔增加通常，它们应该相等。
BDBJE Writer : BDBJE 写入情况，正常都是毫秒级别，如果出现秒级的写入速度就要警惕了，可能会出现元数据写入延迟，严重可能会引起写入错误。BDBJE：Oracle Berkeley DB Java Edition (opens new window)。在 StarRocks 中，使用 bdbje 完成元数据操作日志的持久化、FE 高可用等功能。左侧 Y 轴显示 99th 写入延迟。右侧的 Y 轴显示日志的每秒写入次数。
Schedulings Tablets : 开始调度运行的Tablet数量。这些 tablet 可能处于recovery 或Balance 过程中

请添加图片描述

BE IO Util : IO Util 监控
BE Compaction Score ：正常这个值在100以内算是正常，不过如果持续接近100这个值，说明你的集群可能存在风险，需要去关注。
这里反映的是集群中每个 BE 节点，所有 Tablet 中数据版本最多的那个 Tablet 的版本数量，可以反映出当前版本堆积情况，
1. 观察数据版本数量的趋势，如果趋势平稳，则说明 Compaction 和导入速度基本持平。如果呈上升态势，则说明 Compaction 速度跟不上导入速度了。如果呈下降态势，说明 Compaction 速度超过了导入速度。如果呈上升态势，或在平稳状态但数值较高，则需要考虑调整 Compaction 参数以加快 Compaction 的进度。这里需要去参考第七部分BE的 7.10小节：Base Compaction 和 Cumulative Compaction
2. 通常版本数量维持在 100 以内可以视为正常。而在大部分批量导入或低频导入场景下，版本数量通常为10-20甚至更低。

请添加图片描述

RPS ：每个FE的每秒请求数。请求包括发送到FE的所有请求。
QPS ：每个FE的每秒查询数。查询仅包括 Select 请求。
99th Latency：每个FE 的 99th个查询延迟情况。

请添加图片描述

Query Percentile：左 Y 轴表示每个FE的 95th 到 99th 查询延迟的情况。右侧 Y 轴表示每 1 分钟的查询率。
Query Error：左 Y 轴表示累计错误查询次数。右侧 Y 轴表示每 1 分钟的错误查询率。通常，错误查询率应为 0。
Connections：每个FE的连接数量

请添加图片描述

Mini Load Job：每个负载状态下的Mini Load 作业数量的统计。这个已经慢慢废弃不再使用
Hadoop Load Job：每个负载状态下的Hadoop Load 作业数量的统计。
Broker Load Job ：每个负载状态下的Broker Load 作业数量的统计。
Insert Load Job ：由 Insert Stmt 生成的每个 Load State 中的负载作业数量的统计。
Mini load tendency：Mini Load 作业趋势报告
Hadoop load tendency：Hadoop Load 作业趋势报告
Broker load tendency：Broker Load 作业趋势报告
Insert Load tendency：Insert Stmt 生成的 Load 作业趋势报告
Load submit：显示已提交的 Load 作业和 Load 作业完成的计数器。如果Load 提交是Routine 操作，则这两行显示为并行。右侧 Y 轴显示加载作业的提交率
SC Job：正在运行的Schema 更改作业的数量。
Rollup Job：正在运行Rollup 构建作业数量
Report queue size：Master FE 中报告的队列大小。

请添加图片描述

Txn Begin/Success on FE：显示Txn 开始和成功的数量和比率
Txn Failed/Reject on FE：显示失败的 txn 请求。包括被拒绝的请求和失败的 txn
Publish Task on BE：发布任务请求总数和错误率。
Txn Requset on BE：在 BE 上显示 txn 请求这里包括：begin，exec，commit，rollback四种请求的统计信息
Txn Load Bytes/Rows rate:左 Y 轴表示 txn 的总接收字节数。右侧 Y 轴表示 txn 的Row 加载率。

请添加图片描述

FE JVM Heap ：指定FE 的 JVM 堆使用情况。左 Y 轴显示已使用/最大堆大小。右 Y 轴显示使用的百分比。
JVM Non Heap ：指定FE 的 JVM 非堆使用情况。左 Y 轴显示使用/提交的非堆大小。
JVM Direct Buffer ：指定 FE 的 JVM 直接缓冲区使用情况。左 Y 轴显示已用/容量直接缓冲区大小。
JVM Threads ：集群FE JVM线程数

请添加图片描述

JVM Young ：指定 FE 的 JVM 年轻代使用情况。左 Y 轴显示已使用/最大年轻代大小。右 Y 轴显示使用的百分比。
JVM Old ：指定 FE 的 JVM 老年代使用情况。左 Y 轴显示已使用/最大老年代大小。右 Y 轴显示使用的百分比。通常，使用百分比应小于 80%。
JVM Young GC ：指定 FE 的 JVM 年轻 gc 统计信息。左 Y 轴显示年轻 gc 的时间。右 Y 轴显示每个年轻 gc 的时间成本。
JVM Old GC ：指定 FE 的 JVM 完整 gc 统计信息。左 Y 轴显示完整 gc 的次数。右 Y 轴显示每个完整 gc 的时间成本。

请添加图片描述

BE CPU Idle ： BE 的 CPU 空闲状态。低表示 CPU 忙。说明CPU的利用率越高
BE Mem ：这里是监控集群中每个BE的内存使用情况

请添加图片描述

Net send/receive bytes : 每个BE节点的网络发送（左 Y）/接收（右 Y）字节速率，除了“IO”
Disk Usage : BE节点的磁盘利用率
Tablet Distribution : 每个BE节点上的Tablet分布情况，原则上分布式均衡的，如果差别特别大，就需要去分析原因

请添加图片描述

BE FD count ：
BE的文件描述符（ File Descriptor）使用情况。左 Y 轴显示使用的 FD 数量。右侧 Y 轴显示软限制打开文件数。
FileDescriptor 顾名思义是文件描述符，FileDescriptor 可以被用来表示开放文件、开放套接字等。比如用 FileDescriptor 表示文件来说: 当 FileDescriptor 表示文件时，我们可以通俗的将 FileDescriptor 看成是该文件。但是，我们不能直接通过 FileDescriptor 对该文件进行操作。
若需要通过 FileDescriptor 对该文件进行操作，则需要新创建 FileDescriptor 对应的 FileOutputStream或者是 FileInputStream，再对文件进行操作，应用程序不应该创建他们自己的文件描述符。
BE Thread Num BE的线程数
Disk IO util ：BE 的IO util。高表示 I/O 繁忙。

请添加图片描述

BE BC（Base Compaction）和CC（Compaction Cumulate）:
Base Compaction : BE全量压缩率，通常，基本压缩仅在 20:00 到 4:00 之间运行并且它是可配置的。右 Y 轴表示总基本压缩字节。
Compaction Cumulate: BE增量压缩率，右 Y 轴表示总累积压缩字节。
StarRocks 的 Compaction分为两种类型：base compaction和cumulative compaction。其中cumulative compaction则主要负责将多个最新导入的rowset合并成较大的rowset，而base compaction会将cumulative compaction产生的rowset合入到start version为0的基线数据版本（Base Rowset）中，是一种开销较大的compaction操作。这两种compaction的边界通过cumulative point来确定。base compaction会将cumulative point之前的所有rowset进行合并，cumulative compaction会在cumulative point之后选择相邻的数个rowset进行合并。

请添加图片描述

BE Scan / Push：Scan Bytes：BE扫描效率，这表示处理查询时的读取率。Push Rows：BE的Load Rows效率，这表示在Load作业的 LOADING 状态下加载的行的速率。右侧 Y 轴显示集群的总推送率。

请添加图片描述

BE Scan Rows : BE 的行扫描速率，这表示处理查询时的读取行率。
BE Scan Bytes : BE的扫描速率，这表示处理查询时的读取字节速率。

请添加图片描述

Tablet Meta Write ： Y 轴显示了保存在rocksdb 中的tablet header 的写入速率。右侧 Y 轴显示每次写入操作的持续时间。
Tablet Meta Read ： Y 轴显示了保存在rocksdb 中的tablet header 的写入速率。右侧 Y 轴显示每次写入操作的持续时间。

请添加图片描述

Tablet Report 左侧 Y 轴表示指定任务的失败率。通常，它应该是 0。右侧 Y 轴表示所有 Backends 中指定任务的总数。
Single Tablet Report ：左侧 Y 轴表示指定任务的失败率。通常，它应该是 0。右侧 Y 轴表示所有 Backends 中指定任务的总数。
Finish task report ：左侧 Y 轴表示指定任务的失败率。通常，它应该是 0。右侧 Y 轴表示所有 Backends 中指定任务的总数。

请添加图片描述

Push Task : 左侧 Y 轴表示指定任务的失败率。通常，它应该是 0。右侧 Y 轴表示所有 Backends 中指定任务的总数。
Push Task Cost Time : 每个BE推送任务的平均消耗时间。
Delete Task : 左侧 Y 轴表示指定任务的失败率。通常，它应该是 0。右侧 Y 轴表示所有 Backends 中指定任务的总数。

请添加图片描述

Base Compaction Task ：左侧 Y 轴表示指定任务的失败率。通常，它应该是 0。右侧 Y 轴表示所有 Backends 中指定任务的总数。
Cumulative Compaction Task ：左侧 Y 轴表示指定任务的失败率。通常，它应该是 0。右侧 Y 轴表示所有 Backends 中指定任务的总数。
Clone Task ：左侧 Y 轴表示指定任务的失败率。通常，它应该是 0。右侧 Y 轴表示所有 Backends 中指定任务的总数。

请添加图片描述

Create rollup task : 创建rollup的任务统计 , 左侧 Y 轴表示指定任务的失败率。通常，它应该是 0。右侧 Y 轴表示所有 Backends 中指定任务的总数。
Schema Change Task : Schema 变更任务统计 , 左侧 Y 轴表示指定任务的失败率。通常，它应该是 0。右侧 Y 轴表示所有 Backends 中指定任务的总数。
Create tablet task : create tablet 任务统计 , 左侧 Y 轴表示指定任务的失败率。通常，它应该是 0。右侧 Y 轴表示所有 Backends 中指定任务的总数。