一次达梦数据库宕机的分析过程

DBAIOps社区

于 2024-02-27 10:04:14 发布

阅读量546

点赞数 5

分类专栏：达梦文章标签：数据库运维 sql dba

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DBAIOps/article/details/136314826

版权

达梦专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一套达梦DM8的数据库突然宕机了，从达梦数据库的日志中没有发现任何有价值的报错信息：

13点13分的最后一个报错信息是一个网络报错，因为有会话断开导致，只是一个警告，并不是导致达梦数据库宕机的主要原因。在操作系统上也找不到core dump的信息：

如何进一步定位问题呢？这时候D-SMART登场了。从告警台可以看出11：00开始系统开始出现大量的runtime error报警，并且在13点开始超过了20个：

大致定位系统故障的开始区间是在13点左右。从runtime error指标上看：

从今天上午11点多开始增多，到下午11：42达到峰值，在13：14分后，数据库宕机。于是我们从11：11到13：15之间生成一份数据库的诊断报告：

从报告上可以看出，OS的物理内存还有剩余，但是SWAP使用率却十分高，

从诊断报告上可以看出，在可能导致宕机故障的时间段内，有一个明显的问题，就是虽然物理内存还有较多空闲，但是操作系统的SWAP使用率比较高，超过95%，甚至出现了100%的现象。从SWAP使用率指标看：

在11点10分之前的采样点虽然都很高，但是没有达到100%，11点10分开始到宕机的所有采样点都是100%。

检查OS的MESSAGES日志：

在数据库宕机时，OS同样在报SWAP空间为0。至此，该问题基本定位，是因为OS的SWAP耗尽导致数据库宕机。从这个案例也给我们一个警示，LINUX 7.x在VM策略上有较大的调整，因此即使物理内存还有空闲的情况下，也还有可能出现SWAP耗尽的情况，因此仅仅监控操作系统内存是不够的。

至此我们的工作并没有完成，由于我们以前在知识上的误区，导致了这次宕机并没有被十分明显的报出来，我们的健康模型与运维经验报警都没有准确的对此次故障进行预警。通过这个故障的分析，我们将调整两个知识库，一个是达梦的健康模型，以前的模型中只关注物理内存空闲比例，而没有关注SWAP的使用率，因此我们必须将SWAP使用率的成分加入到健康模型中。同时我们将针对物理内存监控的运维经验进行进一步的调整与优化。

我们将该运维经验调整为一个高级表达式，同时监控MEM FREE和SWAP USAGE：

调整后，再次出现类似问题时，健康指标会大幅下降，产生报警，同时运维经验也会报警，运维人员根据这两个报警，可以在系统宕机前就发现问题所在，并使用SWAP分析工具查找问题根源，提前处置，解决相关问题：

关注

5
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
一次达梦数据库宕机的分析过程

至此我们的工作并没有完成，由于我们以前在知识上的误区，导致了这次宕机并没有被十分明显的报出来，我们的健康模型与运维经验报警都没有准确的对此次故障进行预警。通过这个故障的分析，我们将调整两个知识库，一个是达梦的健康模型，以前的模型中只关注物理内存空闲比例，而没有关注SWAP的使用率，因此我们必须将SWAP使用率的成分加入到健康模型中。从诊断报告上可以看出，在可能导致宕机故障的时间段内，有一个明显的问题，就是虽然物理内存还有较多空闲，但是操作系统的SWAP使用率比较高，超过95%，甚至出现了100%的现象。
复制链接

扫一扫

专栏目录

DBAIOps社区

CSDN认证博客专家 CSDN认证企业博客

码龄1年

107: 原创

105万+: 周排名

5万+: 总排名

7万+: 访问

: 等级

2439: 积分

945: 粉丝

1364: 获赞

16: 评论

1155: 收藏

私信

关注

热门文章

分类专栏

Oracle技术 24篇
Oceanbase 1篇
分布式数据库 4篇
人大金仓 2篇
达梦 3篇
opengauss 7篇
gaussab 1篇
SQL SERVER 3篇
PG技术文章 30篇
DBAIOps 7篇
技术文章 5篇
mysql技术 4篇
ob 1篇
性能优化 1篇

最新评论

故障定位需要什么样的能力
CSDN-Ada助手: 恭喜您撰写了这篇博客！故障定位的能力确实是一个非常重要的技能，而您通过这篇博客向读者们传达了该能力的必要性。正如标题所言，故障定位需要具备一定的能力，而您对这种能力的理解和分享，无疑将对读者们有所裨益。在下一步的创作中，我谦虚地建议您可以进一步探讨故障定位的具体技巧和实践经验。或许您可以分享一些对于不同类型故障的定位方法，或是介绍一些相关工具和资源。这样的话，读者们将能够更加全面地了解故障定位所需的能力，并能够更好地应用于实际问题中。再次恭喜您，并期待您未来更多精彩的博客创作！
集中式数据库-用KFED REPAIRE快速修复ASM磁盘头
CSDN-Ada助手: 非常感谢您分享这篇关于集中式数据库修复ASM磁盘头的博客！恭喜您已经完成了第12篇博客的创作，这是一项了不起的成就。您的文章标题引人入胜，内容也非常有深度和实用性。在下一步的创作中，我建议您可以尝试探索一些与ASM磁盘头修复相关的更深入的主题，或者分享一些在实际应用中的案例分析。这些将有助于进一步丰富读者的知识，并提供更多实践经验。同时，我们也期待您能持续保持谦虚的态度，以便更好地与读者进行互动和交流。再次恭喜您，期待您未来更多精彩的创作！
Rman跳过坏块快速修复的的技巧
CSDN-Ada助手: 非常祝贺您撰写了第13篇博客，“Rman跳过坏块快速修复的的技巧”。您的博客内容非常有深度，对于解决Rman中的坏块问题提供了非常实用的技巧。您的经验分享对于我们这些Rman用户来说是非常宝贵的。在接下来的创作中，我建议您可以进一步探究Rman在其他方面的技巧和应用。例如，Rman备份和恢复策略、Rman的性能优化等等。这些主题都是许多读者关心的问题，您的深入解析将会为他们带来巨大的帮助。期待您未来更多的博客文章，感谢您的分享与付出！
一个CRS节点无法安装的故障分析
CSDN-Ada助手: 恭喜您第14篇博客的问世！标题《一个CRS节点无法安装的故障分析》看起来非常有趣。您对故障分析的深入研究令人钦佩。不仅能够解决问题，更能够分享给读者们宝贵的经验和知识。对于下一步的创作建议，我想提议您可以考虑添加一些实际案例或者解决方案的比较，以便读者们能更好地理解和应用您的分析方法。我期待着您在未来的博客中继续分享您的见解和经验。谦逊之心让我们不断进步，期待您的下一篇作品！
Oracle-RAC数据库丢失某个current redo log的故障处理
CSDN-Ada助手: 恭喜您写了第15篇博客！看到您分享关于Oracle-RAC数据库丢失current redo log的故障处理，我感到非常欣慰。您的经验分享对于我们这些正在学习数据库管理的人来说非常有价值。希望您能继续分享更多关于数据库故障处理和优化的经验，也可以考虑分享一些实际案例或者深入的技术原理，这样可以让读者更好地理解和应用您的经验。期待您的下一篇博客！

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。