62.安心技术梳理 - 系统线上服务监控/报警内容

一、机器监控

  1. 所有资源类型的机器(物理机、容器)都加入MDC:物理机/容器,nginx/应用/数据库/redis/zk/etc。
  2. 报警指标类型(TODO,用表格的形式,做一个建议的报警配置)
    1. 必须:连通性、cpu利用率、内存利用率、磁盘利用率、网络重传
    2. 建议:tcp连接数、网络流入/流出速率、磁盘繁忙、swap使用率
  3. 资源缩容/扩容后,及时同步ip列表到mdc并检查监控是否设置。j-one、admcache/jimdb、dbs的同步(实例、分组,通过api同步或手动)
  4. 巡检(TODO):JVM参数与docker规格不匹配;jimdb相关(CPU软中断不均衡、亲和性、节能模式、swap);同一服务分组下,docker CPU规格不一致。

二、(进程监控)

  1. 进程存活监控:nginx/tomcat/jsf/redis/mysql/zookeeper/solr/mongodb
    1. 端口存活
    2. 心跳存活
  2. (建议)进程健康度监控
    1. UMP URL检测。缩容/扩容后ip是否同步?
    2. 进程提供的内部状态的展示和监控。

三、应用监控

  1. UMP
    1. 可用率、TP、调用次数(最大值、最小值)
    2. 入口
    3. 调用外部:外部接口、存储等。
    4. redis/mysql/solr/mongodb等分片路由场景,需要配置访问每个分片的ump监控。发生时相关的上下文参数,注意报警频次、策略。
  2. UMP JVM :YGC、FGC频次报警
  3. logbook的关键字报警
    1. 缩容/扩容后,logbook中需要同步实例/分组。
  4. canal的延迟报警
  5. 常用平台的内置报警设置(TODO,用表格的形式,做一个各平台建议的报警指标配置)
    1. admcache/jimdb、jmq、dbs、jes、jed、hbase、jss、binlake等

四、重要事件的监控

  1. 更改配置
  2. 限流
  3. 切换

五、专用监控和报警的补充(梳理下,提需求)

1、JMQ积压监控。

2、UMP指标的众数。

3、logbook的异常的可视化。

4、集成(自主决策)。

5、报警方式,增加微信方式、电话报警。

6、ping、telnet,补充mdc的不够及时

7、mdc按分组的聚合统计。

8、jsf的实例数少于多少。

9、待补充

六、业务监控

与业务相关的自行定义。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值