跨数据库系统标准化排查 SOP

下面是一个针对 关系型数据库(MySQL、PostgreSQL、Oracle、SQL Server) 的通用、跨平台的 性能瓶颈与高可用异常切换的标准化排查 SOP(Standard Operating Procedure)。它便于统一运维流程、快速定位问题,适合 DBA、SRE 或平台团队使用。


📘 跨数据库系统标准化排查 SOP

一、📊 性能瓶颈排查通用步骤

步骤目标工具/命令判断标准
1️⃣ 收集资源指标判断是否存在 系统级瓶颈(CPU/内存/磁盘)topvmstatiostat、CloudWatch、AWR、PerfMonCPU >80%、IO 延迟 >15ms、内存命中率 <90%
2️⃣ 获取活跃会话查看是否有活跃连接、慢查询、锁等待DM Views、SHOW PROCESSLISTpg_stat_activityv$session活跃连接数高、WAIT 状态频繁
3️⃣ 排查慢SQL分析 SQL 执行频率与平均耗时SQL Profiler、pg_stat_statements、AWR、Query StatsTop SQL avg_time > 1s
4️⃣ 检查等待事件是否存在系统瓶颈或资源竞争pg_stat_activity.wait_eventv$system_eventsys.dm_os_wait_stats频繁出现 I/O / Lock / Latch 等等待
5️⃣ 查看锁与阻塞是否存在死锁、长时间阻塞SHOW ENGINE INNODB STATUS、锁视图多个 session 等待锁资源
6️⃣ 检查执行计划是否索引缺失或走错计划EXPLAIN / EXPLAIN PLAN / SQL Hints全表扫描、低效 Join、没有使用索引
7️⃣ 检查连接数和参数是否连接数爆满或配置不当配置文件、动态参数视图超过 max_connections 限制
8️⃣ 日志排查查看是否有内部错误或慢 SQL 记录Error Log、Slow Log、alert.log、CloudWatch Logs报错堆栈、异常堆积、连接失败

二、🔁 高可用异常与故障切换排查 SOP

步骤目标工具/命令异常判断
1️⃣ 查看集群状态主从、主备是否在线SHOW SLAVE STATUSpg_stat_replicationv$archive_dest_status、AlwaysOn 视图状态不为 Running/SYNCHRONIZED 视为异常
2️⃣ 检查同步延迟判断复制是否滞后Seconds_Behind_Masterreplica_lagapply_lag延迟 > 5 秒为关注点
3️⃣ 检查切换历史是否存在自动切换、漂移记录AWS RDS Events、OS 日志、Cluster 日志最近切换、漂移、告警记录
4️⃣ 检查仲裁与心跳多节点系统仲裁是否生效Pacemaker、Windows Cluster、pg_auto_failover仲裁失败、节点分裂
5️⃣ 检查高可用组件状态Keepalived、ProxySQL、Patroni 等组件状态systemctl status、组件日志服务未运行或状态异常
6️⃣ 查应用连接状态应用是否未自动重连/切换应用日志错误如 connection refusedread-only mode

三、📦 抽象分层模型:统一排查框架(“4 层模型”)

层级内容排查维度常用命令/指标
🟦 1. 系统层CPU / 内存 / 磁盘top, vmstat, iostat, CloudWatchCPU%、I/O延迟、内存命中率
🟩 2. 数据库引擎层连接池、线程、缓冲区、锁机制SHOW STATUS, DMV, pg_stat*, v$ 视图活跃连接数、Buffer Pool、锁等待
🟨 3. SQL 层SQL 执行计划、索引、慢 SQLEXPLAIN, query_stats, Profiler扫描方式、Join 类型、慢查询数
🟥 4. 高可用层主从/主备状态、漂移、切换replication_status, Cluster ToolLag、状态、切换记录

四、🧰 常用命令与工具(对比表)

工具 / 目的MySQLPostgreSQLOracleSQL Server
活跃连接SHOW PROCESSLISTpg_stat_activityv$sessionsys.dm_exec_requests
慢 SQLslow_query_logpg_stat_statementsAWR / ADDMdm_exec_query_stats
执行计划EXPLAINEXPLAINEXPLAIN PLAN FORSET SHOWPLAN_ALL ON
锁等待INNODB STATUSpg_locksv$locksys.dm_tran_locks
I/O/CPUSHOW STATUS, iostatpg_stat_bgwriterv$sysstatPerfMon, dm_os_performance_counters
主从状态SHOW SLAVE STATUSpg_stat_replicationv$archive_dest_statusAlwaysOn dashboard
日志分析error.log, slow.logPostgreSQL logalert.logerror log, Windows Event
图形化工具MySQL WorkbenchpgAdminEnterprise ManagerSSMS

✅ 补充建议:自动化/规范化工具

类型推荐工具说明
监控平台Prometheus + Grafana、CloudWatch自建或云端统一面板
日志收集ELK、CloudWatch Logs日志集中管理与告警
高可用框架MHA, Orchestrator, Patroni, AlwaysOn实现自动故障转移
SQL 分析pt-query-digest, pgBadger, AWR提取高消耗 SQL 模式
自动收集脚本Shell + crontab + SQL定期快照,留痕分析故障

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值