异常巡检规则

最新推荐文章于 2024-02-09 08:00:00 发布

lefooter

最新推荐文章于 2024-02-09 08:00:00 发布

阅读量306

点赞数

分类专栏：基础架构文章标签： java 前端服务器监控监控巡检

本文链接：https://blog.csdn.net/baidu_19620507/article/details/125779657

版权

基础架构专栏收录该内容

5 篇文章 0 订阅

订阅专栏

序号

类别

规则名称

异常级别

判断依据说明

来源

异常解决措施

备注

S1、S2应用线上机器少于3台

warn

S1、S2应用PRO环境机器数量少于3台

巡检平台

线上机器扩容至3台（含）以上

日志

soaclientreq日志平均每条大于16K

high

SRE巡检脚本-

调整日志输出内容

日志

soaclientreq日志平均每条大于4K

warn

SRE巡检脚本-

调整日志输出内容

日志

soadetail日志平均每条大于16K

high

SRE巡检脚本-

调整日志输出内容

日志

soadetail日志平均每条大于4K

warn

SRE巡检脚本-

调整日志输出内容

日志

soaresponse日志平均每条大于16K

high

SRE巡检脚本-

调整日志输出内容

日志

soaresponse日志平均每条大于4K

warn

SRE巡检脚本-

调整日志输出内容

资源

业务目录磁盘增长1分钟大于300M

warn

SRE巡检脚本-

检查日志打印是否过多，收敛日志输出

冷应用（近半年未发布过）

info

巡检平台

如长时间不使用，可考虑应用下线

存在/超过2台虚拟机在同一宿主机

warn

应用PRO环境的机器存在或者超过2台虚拟机均属于同一台宿主机

巡检平台

找SRE将相关机器下线，并申请新的机器

容量

应用分组水位偏低

warn

应用PRO环境机器数 > 3 且昨日cpuMax < 10%

巡检平台

缩容。缩容时需要注意S1S2应用PRO机器数最终不得少于3台，其它级别应用PRO机器数最终不得少于2台。

容量

应用分组水位偏离度过高

high

查询出应用分组下PRO环境下所有机器的昨日CPU平均使用率，计算出cpuAvg的中位数，机器的cpuAvg与中位数偏差大于80%，且差值大于10%则视为水位偏离度过高

巡检平台

（1）分析偏离过高的机器是否异常，如有需要关注处理；

（2）如果是应用内的机器角色分工不同，可以联系SRE将不同的机器划分成不同的应用分组

容量

应用分组水位偏高

warn

S1、S2应用：昨日水位 cpuAvg>20% || cpuMax>30%视为水位偏高

S3、S4应用：昨日水位 cpuAvg>30% || cpuMax>50%视为水位偏高

巡检平台

扩容

应用无预发环境机器

info

应用PRE环境无机器

巡检平台

申请预发环境机器，并发布

存活性

服务器ping不通

high

巡检平台

联系SA

线上SLB后端服务器映射不完整

high

若A应用的PRO环境使用SLB，SLB后端绑定了2台机器，而该应用的PRO环境有3台机器，则视为映射不完整。

巡检平台

（1）联系SRE将未配置SLB的后端机器进行配置

（2）如果是应用分组内不同机器负责不同角色功能，则可以联系SRE将不同的机器划分成不同的应用分组

线上环境单点

high

S1、S2、S3应用PRO环境只有1台机器

巡检平台

扩容

线上环境机器规格不一致

warn

应用PRO环境存在多种规格的机器

巡检平台

（1）将PRO环境的机器统一成同一规格的机器。

（2）如果是应用内的机器角色分工不同，可以联系SRE将不同的机器划分成不同的应用分组

线上环境机器进程数不一致

warn

应用PRO环境机器的服务进程数量不一致

巡检平台

（1）正常情况一个应用的服务进程数是一致的

（2）如果不一致是正常情况，可联系SRE将机器划分成不同的应用分组。

应用配置

项目配置文件中存在IP直连

warn

atlas系统中应用的静态配置中使用IP直连

SRE巡检脚本

配置文件换成域名的调用方式

应用配置

项目配置文件中存在Kafka IP直连

high

atlas系统中应用的静态配置中使用Kafka IP直连

SRE巡检脚本

配置文件换成域名的调用方式

健康检查

主机健康检查告警被禁用

high

ssh 检查失败告警项被禁用

Sentry

去Sentry系统完善告警/采集配置

本期新增18个检查规则

健康检查

应用无健康检查采集

warn

没有配置TCP、HTTP或JMX的采集

Sentry

去Sentry系统完善告警/采集配置

健康检查

无有效应用健康检查告警

high

Java应用未启用告警规则“JMX检查失败”，非java应用未配置或未启用包含“health”、“健康检查”关键字的告警规则。

Sentry

rx配置HTTP端口、TCP端口告警。

监控

无有效主机容量告警

warn

内存/磁盘使用率未配置或禁用监控告警

Sentry

去Sentry系统完善告警/采集配置

环境共用

应用存在与S3、S4级别应用混合部署

high

S1、S2应用与S3、S4应用的机器存在混部的情况

巡检平台

将服务拆分出来，尽量保证单机单应用

应用出公网原因信息未填写

info

巡检平台

去cmdb2的应用视角，编辑应用信息中的出公网信息

环境共用

一机多应用

warn

应用的生产环境机器绑定了多个应用

巡检平台

将服务拆分出来，尽量保证单机单应用

环境共用

S1应用与其它级别应用共用redis集群

high

巡检平台

尽量与S2S3S4的缓存隔离，如确认没问题可加白名单

环境共用

S2应用与其它级别应用共用redis集群

warn

巡检平台

尽量与S3S4的缓存隔离，如确认没问题可加白名单

环境共用

S1应用与其它级别应用共用DB集群

high

巡检平台

尽量与S2S3S4的DB隔离，如确认没问题可加白名单

环境共用

S2应用与其它级别应用共用DB集群

warn

巡检平台

尽量与S3S4的DB隔离，如确认没问题可加白名单

环境共用

S1应用与S3/S4应用生产相同MQ Topic

high

S1应用与S3/S4应用的机器向相同topic注册为生产者

巡检平台

消息中间件在不同应用级别的生产、消费需要隔离，如确认没问题可加白名单

环境共用

S2应用与S3/S4应用生产相同MQ Topic

warn

S2应用与S3/S4应用的机器向相同topic注册为生产者

巡检平台

消息中间件在不同应用级别的生产、消费需要隔离，如确认没问题可加白名单

依赖关系

S1应用依赖S3/S4应用提供的MQ Topic

info

S1应用消费S3/S4应用生产的Topic消息

巡检平台

消息中间件在不同应用级别的生产、消费需要隔离，如确认没问题可加白名单

依赖关系

S2应用依赖S3/S4应用提供的MQ Topic

info

S2应用消费S3/S4应用生产的Topic消息

巡检平台

消息中间件在不同应用级别的生产、消费需要隔离，如确认没问题可加白名单

依赖关系

S1应用链路依赖S3/S4应用

high

S1应用的直接下游调用依赖了S3/S4应用

巡检平台

如果是强依赖，就需要调整应用级别；若是依赖且必须依赖的场景下，可加白名单。

依赖关系

S2应用链路依赖S3/S4应用

warn

S2应用的直接下游调用依赖了S3/S4应用

巡检平台

如果是强依赖，就需要调整应用级别；若是依赖且必须依赖的场景下，可加白名单。

线上nginx后端服务器映射不完整

high

若A应用的PRO环境使用nginx，upstream后端绑定了2台机器，而该应用的PRO环境有3台机器，则视为映射不完整。

巡检平台

（1）联系SRE将未配置SLB的后端机器进行配置

（2）如果是应用分组内不同机器负责不同角色功能，则可以联系SRE将不同的机器划分成不同的应用分组

HMS主题生产者发送消息过大

warn

生产者向topic单次发送的消息大小大于5KB

HMS

缩减消息发送大小。

防止MQ集群出现抖动而引发生产事故

监控

应用告警接收人为空

high

应用的告警接收人字段为空（排除掉已离职人员）

巡检平台

应用负责人去cmdb2应用视图修改即可。

监控

应用告警接收人单点

warn

应用的告警接收人只有1个（排除掉已离职人员）

巡检平台

应用负责人去cmdb2应用视图修改即可。

容量

应用分组水位过高

high

昨日水位 cpuAvg>20% && cpuMax>60%视为水位过高

巡检平台

建议扩容

监控

HBase集群存在Scan请求

warn

24小时内scan数量大于0且小于500

大数据-存储平台

找大数据

监控

HBase集群Scan请求过多

high

24小时scan数量大于500

大数据-存储平台

找大数据

机器运行版本与发布版本不一致

high

pro机器的app文件夹下latest目录软链的版本号与atlas发布的版本号不一致

巡检平台

将latest软链目录改成正确的版本，或者重新走一次正规发布流程。

存在DB慢SQL-S1S2

high

S1S2应用生产库单条sql执行时间超过1秒

巡检平台

优化sql

存在DB慢SQL-S3S4

warn

S3S4应用生产库单条sql执行时间超过1秒

巡检平台

优化sql

应用依赖的jar包需要升级-high

high

应用依赖的jar包版本不符合对应的版本，存在严重风险，需要尽快升级

巡检平台

应用依赖的jar包需要升级-warn

warn

应用依赖的jar包版本不符合对应的版本，存在较大风险，需要升级

巡检平台

应用依赖的jar包需要升级-info

info

应用依赖的jar包版本不符合对应的版本，存在一定的风险，需要升级

巡检平台

数据库压测数据存在隔离风险

high

1、使用的druid-extend版本不规范

2、数据库未使用druid-extend

3、分库分表场景未使用druid-extend

存在压测数据污染的风险

巡检平台

联系架构部

S1调用非S1服务没有配置熔断

high

1，soa版本低于3.4，soa的配置文件中clientconf模块的每个调用配置是否配置了"circuitBreakerErrorThreshold"

"circuitBreakerRatePeriod"

"circuitBreakerWindowTime"这个三个参数且参数不为0

2，soa版本高于3.4，则通过owl获取APP的下游服务，然后在hahas平台上熔断模块看，是否配置了这些下游服务，如果没有配置，则认为没有配置熔断。在hahas平台上配置熔断，见：

SRE巡检脚本-

应用使用redis大key-S1应用

high

巡检平台

应用使用redis大key-非S1应用

warn

巡检平台

S1应用与其它级别应用混用DB数据库

high

巡检平台

S2应用与其它级别应用混用DB数据库

warn

巡检平台

S2调用S3、S4服务没有配置熔断

warn

1，soa版本低于3.4，soa的配置文件中clientconf模块的每个调用配置是否配置了"circuitBreakerErrorThreshold"

"circuitBreakerRatePeriod"

"circuitBreakerWindowTime"这个三个参数且参数不为0

SRE巡检脚本

App项目代码中存在永真SQL

high

应用项目git仓库代码（master分支）中存在where 1=1的永真sql语句

DB巡检

清理SQL中永真条件

防止出现全表扫描以及全表数据更新

lefooter

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
异常巡检规则

巡检规则
复制链接

扫一扫

专栏目录

异常巡检规则

“相关推荐”对你有帮助么？