62.安心技术梳理 - 系统线上服务监控/报警内容

最新推荐文章于 2024-05-19 06:27:17 发布

孜梓不倦

最新推荐文章于 2024-05-19 06:27:17 发布

阅读量353

点赞数

分类专栏：安心技术文章标签：运维

本文链接：https://blog.csdn.net/majunzhu/article/details/105675334

版权

102 篇文章 2 订阅

订阅专栏

一、机器监控

所有资源类型的机器（物理机、容器）都加入MDC：物理机/容器，nginx/应用/数据库/redis/zk/etc。
报警指标类型（TODO，用表格的形式，做一个建议的报警配置）
1. 必须：连通性、cpu利用率、内存利用率、磁盘利用率、网络重传
2. 建议：tcp连接数、网络流入/流出速率、磁盘繁忙、swap使用率
资源缩容/扩容后，及时同步ip列表到mdc并检查监控是否设置。j-one、admcache/jimdb、dbs的同步（实例、分组，通过api同步或手动）
巡检（TODO）：JVM参数与docker规格不匹配；jimdb相关（CPU软中断不均衡、亲和性、节能模式、swap）；同一服务分组下，docker CPU规格不一致。

UMP
1. 可用率、TP、调用次数（最大值、最小值）
2. 入口
3. 调用外部：外部接口、存储等。
4. redis/mysql/solr/mongodb等分片路由场景，需要配置访问每个分片的ump监控。发生时相关的上下文参数，注意报警频次、策略。
UMP JVM ：YGC、FGC频次报警
logbook的关键字报警
1. 缩容/扩容后，logbook中需要同步实例/分组。
canal的延迟报警
常用平台的内置报警设置（TODO，用表格的形式，做一个各平台建议的报警指标配置）
1. admcache/jimdb、jmq、dbs、jes、jed、hbase、jss、binlake等