序号 | 类别 | 规则名称 | 异常级别 | 判断依据说明 | 来源 | 异常解决措施 | 备注 |
1 | S1、S2应用线上机器少于3台 | warn | S1、S2应用PRO环境机器数量少于3台 | 巡检平台 | 线上机器扩容至3台(含)以上 |
| |
2 | 日志 | soaclientreq日志 平均每条大于16K | high | SRE巡检脚本- | 调整日志输出内容 |
| |
3 | 日志 | soaclientreq日志 平均每条大于4K | warn | SRE巡检脚本- | 调整日志输出内容 |
| |
4 | 日志 | soadetail日志 平均每条大于16K | high | SRE巡检脚本- | 调整日志输出内容 |
| |
5 | 日志 | soadetail日志 平均每条大于4K | warn | SRE巡检脚本- | 调整日志输出内容 |
| |
6 | 日志 | soaresponse日志 平均每条大于16K | high | SRE巡检脚本- | 调整日志输出内容 |
| |
7 | 日志 | soaresponse日志 平均每条大于4K | warn | SRE巡检脚本- | 调整日志输出内容 |
| |
8 | 资源 | 业务目录磁盘增长1分钟大于300M | warn | SRE巡检脚本- | 检查日志打印是否过多,收敛日志输出 |
| |
9 | 冷应用(近半年未发布过) | info | 巡检平台 | 如长时间不使用,可考虑应用下线 |
| ||
10 | 存在/超过2台虚拟机在同一宿主机 | warn | 应用PRO环境的机器存在或者超过2台虚拟机均属于同一台宿主机 | 巡检平台 | 找SRE将相关机器下线,并申请新的机器 |
| |
11 | 容量 | 应用分组水位偏低 | warn | 应用PRO环境机器数 > 3 且 昨日cpuMax < 10% | 巡检平台 | 缩容。缩容时需要注意S1S2应用PRO机器数最终不得少于3台,其它级别应用PRO机器数最终不得少于2台。 |
|
12 | 容量 | 应用分组水位偏离度过高 | high | 查询出应用分组下PRO环境下所有机器的昨日CPU平均使用率, 计算出cpuAvg的中位数,机器的cpuAvg与中位数偏差大于80%,且差值大于10%则视为水位偏离度过高 | 巡检平台 | (1)分析偏离过高的机器是否异常,如有需要关注处理; (2)如果是应用内的机器角色分工不同,可以联系SRE将不同的机器划分成不同的应用分组 |
|
13 | 容量 | 应用分组水位偏高 | warn | S1、S2应用:昨日水位 cpuAvg>20% || cpuMax>30%视为水位偏高 S3、S4应用:昨日水位 cpuAvg>30% || cpuMax>50%视为水位偏高 | 巡检平台 | 扩容 |
|
14 | 应用无预发环境机器 | info | 应用PRE环境无机器 | 巡检平台 | 申请预发环境机器,并发布 |
| |
15 | 存活性 | 服务器ping不通 | high | 巡检平台 | 联系SA |
| |
16 | 线上SLB后端服务器映射不完整 | high | 若A应用的PRO环境使用SLB,SLB后端绑定了2台机器,而该应用的PRO环境有3台机器,则视为映射不完整。 | 巡检平台 | (1)联系SRE将未配置SLB的后端机器进行配置 (2)如果是应用分组内不同机器负责不同角色功能,则可以联系SRE将不同的机器划分成不同的应用分组 |
| |
17 | 线上环境单点 | high | S1、S2、S3应用PRO环境只有1台机器 | 巡检平台 | 扩容 |
| |
18 | 线上环境机器规格不一致 | warn | 应用PRO环境存在多种规格的机器 | 巡检平台 | (1)将PRO环境的机器统一成同一规格的机器。 (2)如果是应用内的机器角色分工不同,可以联系SRE将不同的机器划分成不同的应用分组 |
| |
19 | 线上环境机器进程数不一致 | warn | 应用PRO环境机器的服务进程数量不一致 | 巡检平台 | (1)正常情况一个应用的服务进程数是一致的 (2)如果不一致是正常情况,可联系SRE将机器划分成不同的应用分组。 |
| |
20 | 应用配置 | 项目配置文件中存在IP直连 | warn | atlas系统中应用的静态配置中使用IP直连 | SRE巡检脚本 | 配置文件换成域名的调用方式 |
|
21 | 应用配置 | 项目配置文件中存在Kafka IP直连 | high | atlas系统中应用的静态配置中使用Kafka IP直连 | SRE巡检脚本 | 配置文件换成域名的调用方式 |
|
22 | 健康检查 | 主机健康检查告警被禁用 | high | ssh 检查失败 告警项被禁用 | Sentry | 去Sentry系统完善告警/采集配置 | 本期新增18个检查规则 |
23 | 健康检查 | 应用无健康检查采集 | warn | 没有配置TCP、HTTP或JMX的采集 | Sentry | 去Sentry系统完善告警/采集配置 | |
24 | 健康检查 | 无有效应用健康检查告警 | high | Java应用未启用告警规则“JMX检查失败”,非java应用未配置或未启用包含“health”、“健康检查”关键字的告警规则。 | Sentry | rx配置HTTP端口、TCP端口告警。 | |
25 | 监控 | 无有效主机容量告警 | warn | 内存/磁盘使用率未配置或禁用监控告警 | Sentry | 去Sentry系统完善告警/采集配置 | |
26 | 环境共用 | 应用存在与S3、S4级别应用混合部署 | high | S1、S2应用与S3、S4应用的机器存在混部的情况 | 巡检平台 | 将服务拆分出来,尽量保证单机单应用 | |
27 | 应用出公网原因信息未填写 | info | 巡检平台 | 去cmdb2的应用视角,编辑应用信息中的出公网信息 | |||
28 | 环境共用 | 一机多应用 | warn | 应用的生产环境机器绑定了多个应用 | 巡检平台 | 将服务拆分出来,尽量保证单机单应用 | |
29 | 环境共用 | S1应用与其它级别应用共用redis集群 | high | 巡检平台 | 尽量与S2S3S4的缓存隔离,如确认没问题可加白名单 | ||
30 | 环境共用 | S2应用与其它级别应用共用redis集群 | warn | 巡检平台 | 尽量与S3S4的缓存隔离,如确认没问题可加白名单 | ||
31 | 环境共用 | S1应用与其它级别应用共用DB集群 | high | 巡检平台 | 尽量与S2S3S4的DB隔离,如确认没问题可加白名单 | ||
32 | 环境共用 | S2应用与其它级别应用共用DB集群 | warn | 巡检平台 | 尽量与S3S4的DB隔离,如确认没问题可加白名单 | ||
33 | 环境共用 | S1应用与S3/S4应用生产相同MQ Topic | high | S1应用与S3/S4应用的机器向相同topic注册为生产者 | 巡检平台 | 消息中间件在不同应用级别的生产、消费需要隔离,如确认没问题可加白名单 | |
34 | 环境共用 | S2应用与S3/S4应用生产相同MQ Topic | warn | S2应用与S3/S4应用的机器向相同topic注册为生产者 | 巡检平台 | 消息中间件在不同应用级别的生产、消费需要隔离,如确认没问题可加白名单 | |
35 | 依赖关系 | S1应用依赖S3/S4应用提供的MQ Topic | info | S1应用消费S3/S4应用生产的Topic消息 | 巡检平台 | 消息中间件在不同应用级别的生产、消费需要隔离,如确认没问题可加白名单 | |
36 | 依赖关系 | S2应用依赖S3/S4应用提供的MQ Topic | info | S2应用消费S3/S4应用生产的Topic消息 | 巡检平台 | 消息中间件在不同应用级别的生产、消费需要隔离,如确认没问题可加白名单 | |
37 | 依赖关系 | S1应用链路依赖S3/S4应用 | high | S1应用的直接下游调用依赖了S3/S4应用 | 巡检平台 | 如果是强依赖,就需要调整应用级别;若是依赖且必须依赖的场景下,可加白名单。 | |
38 | 依赖关系 | S2应用链路依赖S3/S4应用 | warn | S2应用的直接下游调用依赖了S3/S4应用 | 巡检平台 | 如果是强依赖,就需要调整应用级别;若是依赖且必须依赖的场景下,可加白名单。 | |
39 | 线上nginx后端服务器映射不完整 | high | 若A应用的PRO环境使用nginx,upstream后端绑定了2台机器,而该应用的PRO环境有3台机器,则视为映射不完整。 | 巡检平台 | (1)联系SRE将未配置SLB的后端机器进行配置 (2)如果是应用分组内不同机器负责不同角色功能,则可以联系SRE将不同的机器划分成不同的应用分组 | ||
40 | HMS主题生产者发送消息过大 | warn | 生产者向topic单次发送的消息大小大于5KB | HMS | 缩减消息发送大小。 | 防止MQ集群出现抖动而引发生产事故 | |
41 | 监控 | 应用告警接收人为空 | high | 应用的告警接收人字段为空(排除掉已离职人员) | 巡检平台 | 应用负责人去cmdb2应用视图修改即可。 | |
42 | 监控 | 应用告警接收人单点 | warn | 应用的告警接收人只有1个(排除掉已离职人员) | 巡检平台 | 应用负责人去cmdb2应用视图修改即可。 | |
43 | 容量 | 应用分组水位过高 | high | 昨日水位 cpuAvg>20% && cpuMax>60%视为水位过高 | 巡检平台 | 建议扩容 | |
44 | 监控 | HBase集群存在Scan请求 | warn | 24小时内scan数量大于0且小于500 | 大数据-存储平台 | 找大数据 | |
45 | 监控 | HBase集群Scan请求过多 | high | 24小时scan数量大于500 | 大数据-存储平台 | 找大数据 | |
46 | 机器运行版本与发布版本不一致 | high | pro机器的app文件夹下latest目录软链的版本号与atlas发布的版本号不一致 | 巡检平台 | 将latest软链目录改成正确的版本,或者重新走一次正规发布流程。 | ||
47 | 存在DB慢SQL-S1S2 | high | S1S2应用生产库单条sql执行时间超过1秒 | 巡检平台 | 优化sql | ||
48 | 存在DB慢SQL-S3S4 | warn | S3S4应用生产库单条sql执行时间超过1秒 | 巡检平台 | 优化sql | ||
49 | 应用依赖的jar包需要升级-high | high | 应用依赖的jar包版本不符合对应的版本,存在严重风险,需要尽快升级 | 巡检平台 | |||
50 | 应用依赖的jar包需要升级-warn | warn | 应用依赖的jar包版本不符合对应的版本,存在较大风险,需要升级 | 巡检平台 | |||
51 | 应用依赖的jar包需要升级-info | info | 应用依赖的jar包版本不符合对应的版本,存在一定的风险,需要升级 | 巡检平台 | |||
52 | 数据库压测数据存在隔离风险 | high | 1、使用的druid-extend版本不规范 2、数据库未使用druid-extend 3、分库分表场景未使用druid-extend 存在压测数据污染的风险 | 巡检平台 | 联系架构部 | ||
53 | S1调用非S1服务没有配置熔断 | high | 1,soa版本低于3.4,soa的配置文件中clientconf模块的每个调用配置是否配置了"circuitBreakerErrorThreshold" "circuitBreakerRatePeriod" "circuitBreakerWindowTime"这个三个参数且参数不为0 2,soa版本高于3.4,则通过owl获取APP的下游服务,然后在hahas平台上熔断模块看,是否配置了这些下游服务,如果没有配置,则认为没有配置熔断。在hahas平台上配置熔断,见: | SRE巡检脚本- | |||
54 | 应用使用redis大key-S1应用 | high | 巡检平台 | ||||
55 | 应用使用redis大key-非S1应用 | warn | 巡检平台 | ||||
56 | S1应用与其它级别应用混用DB数据库 | high | 巡检平台 | ||||
57 | S2应用与其它级别应用混用DB数据库 | warn | 巡检平台 | ||||
58 | S2调用S3、S4服务没有配置熔断 | warn | 1,soa版本低于3.4,soa的配置文件中clientconf模块的每个调用配置是否配置了"circuitBreakerErrorThreshold" "circuitBreakerRatePeriod" "circuitBreakerWindowTime"这个三个参数且参数不为0 2,soa版本高于3.4,则通过owl获取APP的下游服务,然后在hahas平台上熔断模块看,是否配置了这些下游服务,如果没有配置,则认为没有配置熔断。在hahas平台上配置熔断,见: | SRE巡检脚本 | |||
59 | App项目代码中存在永真SQL | high | 应用项目git仓库代码(master分支)中存在where 1=1的永真sql语句 | DB巡检 | 清理SQL中永真条件 | 防止出现全表扫描以及全表数据更新 |
异常巡检规则
最新推荐文章于 2024-04-23 18:52:22 发布