一、机器监控
- 所有资源类型的机器(物理机、容器)都加入MDC:物理机/容器,nginx/应用/数据库/redis/zk/etc。
- 报警指标类型(TODO,用表格的形式,做一个建议的报警配置)
- 必须:连通性、cpu利用率、内存利用率、磁盘利用率、网络重传
- 建议:tcp连接数、网络流入/流出速率、磁盘繁忙、swap使用率
- 资源缩容/扩容后,及时同步ip列表到mdc并检查监控是否设置。j-one、admcache/jimdb、dbs的同步(实例、分组,通过api同步或手动)
- 巡检(TODO):JVM参数与docker规格不匹配;jimdb相关(CPU软中断不均衡、亲和性、节能模式、swap);同一服务分组下,docker CPU规格不一致。
二、(进程监控)
- 进程存活监控:nginx/tomcat/jsf/redis/mysql/zookeeper/solr/mongodb
- 端口存活
- 心跳存活
- (建议)进程健康度监控
- UMP URL检测。缩容/扩容后ip是否同步?
- 进程提供的内部状态的展示和监控。
三、应用监控
- UMP
- 可用率、TP、调用次数(最大值、最小值)
- 入口
- 调用外部:外部接口、存储等。
- redis/mysql/solr/mongodb等分片路由场景,需要配置访问每个分片的ump监控。发生时相关的上下文参数,注意报警频次、策略。
- UMP JVM :YGC、FGC频次报警
- logbook的关键字报警
- 缩容/扩容后,logbook中需要同步实例/分组。
- canal的延迟报警
- 常用平台的内置报警设置(TODO,用表格的形式,做一个各平台建议的报警指标配置)
- admcache/jimdb、jmq、dbs、jes、jed、hbase、jss、binlake等
四、重要事件的监控
- 更改配置
- 限流
- 切换
五、专用监控和报警的补充(梳理下,提需求)
1、JMQ积压监控。
2、UMP指标的众数。
3、logbook的异常的可视化。
4、集成(自主决策)。
5、报警方式,增加微信方式、电话报警。
6、ping、telnet,补充mdc的不够及时
7、mdc按分组的聚合统计。
8、jsf的实例数少于多少。
9、待补充
六、业务监控
与业务相关的自行定义。