应用排行榜度量维度收集,挖掘度量遥测数据的深层价值,支撑业务决策

可观测的三大基础度量遥测数据是 Trace、Metric、Log (链路、指标、日志)
OpenTelemetry

围绕度量遥测数据构建可视化产品,看板、仪表盘、大屏/大盘与监控告警,为业务决策做支撑。

目标

  • 提升服务稳定性
  • 提高资源利用率,降低云成本(降本)
  • 业务梳理与架构治理

度量维度

Supported Metrics and Meters
时间区间:一天/每天

机器资源

/actuator/metrics

  1. 【CPU】CPU使用量使用率最大值<5%,迁移接口,调整资源配置(合理区间:[20, 40]%) ✅
  2. 【内存】内存使用量,最大值、平均值<1GB,合并应用,调整资源配置
  3. 【磁盘】日志事件数,JVM监控
  4. 【网络】TCP连接数,Socket句柄,文件描述符数inode,超过一定阈值,连接泄露风险
  5. 【网络】TCP连接状态统计,TIME_WAIT、CLOSE_WAIT
  6. 【JVM】YoungGC次数,很频繁,1秒1次,潜在风险点 ✅
  7. 【JVM】YoungGC耗时,耗时>100ms,潜在风险点 ✅
  8. 【JVM】FullGC次数,数量>1,潜在风险点 ✅
  9. 【JVM】FullGC耗时,耗时>1s,潜在风险点 ✅
  10. 【线程】线程数,数量>1000,CPU上下文切换频繁,潜在风险点 ✅
  11. 【线程】线程池饱和策略拒绝的线程数,数量>0,线程池满了,潜在风险点 ✅

应用资源

/actuator/metrics

  1. 【DB】数据源的连接数,使用率>80%,连接被打满风险 ✅
  2. 【Cache】缓存客户端的连接数,使用率>80%,连接被打满风险
  3. 【Search】ElasticSearch客户端的查询队列,使用率>80%,连接被打满风险
  4. 【HTTP】HTTP客户端的连接数,数量>600,连接泄露风险
  5. 【MQ】消息堆积数量,业务延迟风险

业务视角

日同比、周环比

  1. 【接口】入口接口请求数,总量<10w,迁移接口 ✅
  2. 【接口】入口接口的错误数错误率>5%,潜在风险点 ✅
  3. 【接口】入口接口的平均响应时间平均耗时>1s,慢接口(与三方HTTPS交互除外) ✅
  4. 【应用】应用请求数,排行榜,总量<10w,合并应用 ✅
  5. 【应用】应用的错误数,排行榜
  6. 【应用】应用的响应时间,排行榜

链路追踪

  1. 【Trace】应用依赖的出入度,数量排行榜,业务逻辑交互复杂,业务架构治理 ✅
  2. 【Trace】应用接口数量 ✅
  3. 【Trace】接口依赖的出入度
  4. 【Span】Span跨度条数,数量排行榜,业务依赖复杂
  5. 【Span】Span跨度异常数,数量排行榜,接口潜在风险

实施路径

三步走

  • 【一期】构建机器资源和应用资源度量维度的排行榜单
    • 一季度
  • 【二期】构建业务视角的排行榜单
    • 二季度
  • 【三期】构建链路追踪的排行榜单
    • 三季度

参考

应用实时监控服务ARMS

查看监控详情(新版)

应用详情
应用概览

应用概览

应用拓扑

应用分层分优先级展示
应用优先级:P0、P1、P2、P3

应用拓扑

  • 19
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

简放视野

深度思考,简放视野。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值