StarRocks Grafana 监控指标介绍

请添加图片描述

  • Cluster Number : 集群数量
  • Frontends Status : Frontend 的状态
  • Backends Status : Backend 的状态
    请添加图片描述
  • Cluster FE JVM Heap Stat : 每个 StarRocks 集群的每个 FE 的 JVM 堆使用百分比。
  • Cluster BE CPU ldle : 每个 StarRocks 集群的 BE CPU 空闲情况
  • Cluster BE Mem Stat : 每个 StarRocks 集群的 BE 内存使用情况概览。

请添加图片描述

  • Cluster QPS Stat : 按集群分组的 QPS 统计信息。每个集群的 QPS 是在所有FE处理的所有查询的总和。
  • Disk Stat : 磁盘状态。绿色点表示该磁盘处于联机状态。红点表示该磁盘处于离线状态,处理离线状态的磁盘表示可能磁盘损坏,需要运维修复或者更换磁盘进行处理。

请添加图片描述

  • FE Node:总的FE节点数
  • FE Alive:当前正常的FE节点数
  • BE Node:集群中BE的节点总数
  • BE Alive:当前集群中正常存活的BE节点数,如果这个数量和BE Node的数量不一致说明集群中有掉线的BE节点,需要去查看处理
  • Uesd Capacity:当前集群已使用的磁盘空间
  • Total Capacity:集群整体存储空间

请添加图片描述

  • Max Replayed journal id : StarRocks FE 的最大重播元数据日志 ID。正常Master的journal id最大,其他非Master FE节点的这个值基本保持一致,小于Master节点的这值,如果有FE节点这个值和其他节点差别特别大,说明这个节点元数据版本太旧,数据会存在不一致的情况,这种情况下可以将该节点从集群中删除,然后在作为一个新的FE节点加入进来,这样正常情况下这个值和其他节点就会保持一致。
  • Image counter : StarRocks Master FE 元数据image生成计数器。并且 Image 计数器成功推送到其他非Master节点。这些指标预计会以合理的时间间隔增加通常,它们应该相等。
  • BDBJE Writer : BDBJE 写入情况,正常都是毫秒级别,如果出现秒级的写入速度就要警惕了,可能会出现元数据写入延迟,严重可能会引起写入错误。BDBJE:Oracle Berkeley DB Java Edition (opens new window)。在 StarRocks 中,使用 bdbje 完成元数据操作日志的持久化、FE 高可用等功能。左侧 Y 轴显示 99th 写入延迟。右侧的 Y 轴显示日志的每秒写入次数。
  • Schedulings Tablets : 开始调度运行的Tablet数量。这些 tablet 可能处于recovery 或Balance 过程中

请添加图片描述

  • BE IO Util : IO Util 监控
  • BE Compaction Score : 正常这个值在100以内算是正常,不过如果持续接近100这个值,说明你的集群可能存在风险,需要去关注。
    这里反映的是集群中每个 BE 节点,所有 Tablet 中数据版本最多的那个 Tablet 的版本数量,可以反映出当前版本堆积情况,
    1. 观察数据版本数量的趋势,如果趋势平稳,则说明 Compaction 和导入速度基本持平。如果呈上升态势,则说明 Compaction 速度跟不上导入速度了。如果呈下降态势,说明 Compaction 速度超过了导入速度。如果呈上升态势,或在平稳状态但数值较高,则需要考虑调整 Compaction 参数以加快 Compaction 的进度。这里需要去参考第七部分BE的 7.10小节 :Base Compaction 和 Cumulative Compaction
    2. 通常版本数量维持在 100 以内可以视为正常。而在大部分批量导入或低频导入场景下,版本数量通常为10-20甚至更低。

请添加图片描述

  • RPS : 每个FE的每秒请求数。请求包括发送到FE的所有请求。
  • QPS :每个FE的每秒查询数。查询仅包括 Select 请求。
  • 99th Latency:每个FE 的 99th个查询延迟情况。

请添加图片描述

  • Query Percentile:左 Y 轴表示每个FE的 95th 到 99th 查询延迟的情况。右侧 Y 轴表示每 1 分钟的查询率。
  • Query Error:左 Y 轴表示累计错误查询次数。右侧 Y 轴表示每 1 分钟的错误查询率。通常,错误查询率应为 0。
  • Connections:每个FE的连接数量

请添加图片描述

  • Mini Load Job:每个负载状态下的Mini Load 作业数量的统计。这个已经慢慢废弃不再使用
  • Hadoop Load Job:每个负载状态下的Hadoop Load 作业数量的统计。
  • Broker Load Job :每个负载状态下的Broker Load 作业数量的统计。
  • Insert Load Job : 由 Insert Stmt 生成的每个 Load State 中的负载作业数量的统计。
  • Mini load tendency:Mini Load 作业趋势报告
  • Hadoop load tendency:Hadoop Load 作业趋势报告
  • Broker load tendency:Broker Load 作业趋势报告
  • Insert Load tendency:Insert Stmt 生成的 Load 作业趋势报告
  • Load submit:显示已提交的 Load 作业和 Load 作业完成的计数器。如果Load 提交是Routine 操作,则这两行显示为并行。右侧 Y 轴显示加载作业的提交率
  • SC Job:正在运行的Schema 更改作业的数量。
  • Rollup Job:正在运行Rollup 构建作业数量
  • Report queue size:Master FE 中报告的队列大小。

请添加图片描述

  • Txn Begin/Success on FE:显示Txn 开始和成功的数量和比率
  • Txn Failed/Reject on FE:显示失败的 txn 请求。包括被拒绝的请求和失败的 txn
  • Publish Task on BE:发布任务请求总数和错误率。
  • Txn Requset on BE:在 BE 上显示 txn 请求 这里包括:begin,exec,commit,rollback四种请求的统计信息
  • Txn Load Bytes/Rows rate:左 Y 轴表示 txn 的总接收字节数。右侧 Y 轴表示 txn 的Row 加载率。

请添加图片描述

  • FE JVM Heap :指定FE 的 JVM 堆使用情况。左 Y 轴显示已使用/最大堆大小。右 Y 轴显示使用的百分比。
  • JVM Non Heap :指定FE 的 JVM 非堆使用情况。左 Y 轴显示使用/提交的非堆大小。
  • JVM Direct Buffer :指定 FE 的 JVM 直接缓冲区使用情况。左 Y 轴显示已用/容量直接缓冲区大小。
  • JVM Threads :集群FE JVM线程数

请添加图片描述

  • JVM Young : 指定 FE 的 JVM 年轻代使用情况。左 Y 轴显示已使用/最大年轻代大小。右 Y 轴显示使用的百分比。
  • JVM Old : 指定 FE 的 JVM 老年代使用情况。左 Y 轴显示已使用/最大老年代大小。右 Y 轴显示使用的百分比。通常,使用百分比应小于 80%。
  • JVM Young GC : 指定 FE 的 JVM 年轻 gc 统计信息。左 Y 轴显示年轻 gc 的时间。右 Y 轴显示每个年轻 gc 的时间成本。
  • JVM Old GC : 指定 FE 的 JVM 完整 gc 统计信息。左 Y 轴显示完整 gc 的次数。右 Y 轴显示每个完整 gc 的时间成本。

请添加图片描述

  • BE CPU Idle : BE 的 CPU 空闲状态。低表示 CPU 忙。说明CPU的利用率越高
  • BE Mem :这里是监控集群中每个BE的内存使用情况

请添加图片描述

  • Net send/receive bytes : 每个BE节点的网络发送(左 Y)/接收(右 Y)字节速率,除了“IO”
  • Disk Usage : BE节点的磁盘利用率
  • Tablet Distribution : 每个BE节点上的Tablet分布情况,原则上分布式均衡的,如果差别特别大,就需要去分析原因

请添加图片描述

  • BE FD count :
    BE的文件描述符( File Descriptor)使用情况。左 Y 轴显示使用的 FD 数量。右侧 Y 轴显示软限制打开文件数。
    FileDescriptor 顾名思义是文件描述符,FileDescriptor 可以被用来表示开放文件、开放套接字等。比如用 FileDescriptor 表示文件来说: 当 FileDescriptor 表示文件时,我们可以通俗的将 FileDescriptor 看成是该文件。但是,我们不能直接通过 FileDescriptor 对该文件进行操作。
    若需要通过 FileDescriptor 对该文件进行操作,则需要新创建 FileDescriptor 对应的 FileOutputStream或者是 FileInputStream,再对文件进行操作,应用程序不应该创建他们自己的文件描述符。
  • BE Thread Num BE的线程数
  • Disk IO util :BE 的IO util。高表示 I/O 繁忙。

请添加图片描述

  • BE BC(Base Compaction)和CC(Compaction Cumulate):
    Base Compaction : BE全量压缩率,通常,基本压缩仅在 20:00 到 4:00 之间运行并且它是可配置的。右 Y 轴表示总基本压缩字节。
    Compaction Cumulate: BE增量压缩率,右 Y 轴表示总累积压缩字节。
    StarRocks 的 Compaction分为两种类型:base compaction和cumulative compaction。其中cumulative compaction则主要负责将多个最新导入的rowset合并成较大的rowset,而base compaction会将cumulative compaction产生的rowset合入到start version为0的基线数据版本(Base Rowset)中,是一种开销较大的compaction操作。这两种compaction的边界通过cumulative point来确定。base compaction会将cumulative point之前的所有rowset进行合并,cumulative compaction会在cumulative point之后选择相邻的数个rowset进行合并。

请添加图片描述

  • BE Scan / Push:Scan Bytes:BE扫描效率,这表示处理查询时的读取率。Push Rows:BE的Load Rows效率,这表示在Load作业的 LOADING 状态下加载的行的速率。右侧 Y 轴显示集群的总推送率。

请添加图片描述

  • BE Scan Rows : BE 的行扫描速率,这表示处理查询时的读取行率。
  • BE Scan Bytes : BE的扫描速率,这表示处理查询时的读取字节速率。

请添加图片描述

  • Tablet Meta Write : Y 轴显示了保存在rocksdb 中的tablet header 的写入速率。右侧 Y 轴显示每次写入操作的持续时间。
  • Tablet Meta Read : Y 轴显示了保存在rocksdb 中的tablet header 的写入速率。右侧 Y 轴显示每次写入操作的持续时间。

请添加图片描述

  • Tablet Report 左侧 Y 轴表示指定任务的失败率。通常,它应该是 0。右侧 Y 轴表示所有 Backends 中指定任务的总数。
  • Single Tablet Report : 左侧 Y 轴表示指定任务的失败率。通常,它应该是 0。右侧 Y 轴表示所有 Backends 中指定任务的总数。
  • Finish task report :左侧 Y 轴表示指定任务的失败率。通常,它应该是 0。右侧 Y 轴表示所有 Backends 中指定任务的总数。

请添加图片描述

  • Push Task : 左侧 Y 轴表示指定任务的失败率。通常,它应该是 0。右侧 Y 轴表示所有 Backends 中指定任务的总数。
  • Push Task Cost Time : 每个BE推送任务的平均消耗时间。
  • Delete Task : 左侧 Y 轴表示指定任务的失败率。通常,它应该是 0。右侧 Y 轴表示所有 Backends 中指定任务的总数。

请添加图片描述

  • Base Compaction Task : 左侧 Y 轴表示指定任务的失败率。通常,它应该是 0。右侧 Y 轴表示所有 Backends 中指定任务的总数。
  • Cumulative Compaction Task : 左侧 Y 轴表示指定任务的失败率。通常,它应该是 0。右侧 Y 轴表示所有 Backends 中指定任务的总数。
  • Clone Task : 左侧 Y 轴表示指定任务的失败率。通常,它应该是 0。右侧 Y 轴表示所有 Backends 中指定任务的总数。

请添加图片描述

  • Create rollup task : 创建rollup的任务统计 , 左侧 Y 轴表示指定任务的失败率。通常,它应该是 0。右侧 Y 轴表示所有 Backends 中指定任务的总数。
  • Schema Change Task : Schema 变更任务统计 , 左侧 Y 轴表示指定任务的失败率。通常,它应该是 0。右侧 Y 轴表示所有 Backends 中指定任务的总数。
  • Create tablet task : create tablet 任务统计 , 左侧 Y 轴表示指定任务的失败率。通常,它应该是 0。右侧 Y 轴表示所有 Backends 中指定任务的总数。
  • 4
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值