RCA-MongoDB数据写入失败排查

最新推荐文章于 2022-10-25 09:58:21 发布

Spaceack

最新推荐文章于 2022-10-25 09:58:21 发布

阅读量1.5k

点赞数 1

分类专栏：错误处理 mongodb 文章标签： mongodb

本文链接：https://blog.csdn.net/a541972321/article/details/113031764

版权

错误处理同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

mongodb

1 篇文章 0 订阅

订阅专栏

博客讲述了在遇到MongoDB服务因磁盘空间满而崩溃的问题时，如何通过分析日志定位到一个16G的异常日志文件，并怀疑是第三方库误写入造成。作者建议不要完全信任第三方库，应保持系统分区独立，以及建立有效的系统负载报警机制。解决方案是删除日志文件，临时注释日志记录代码，然后重启服务。

摘要由CSDN通过智能技术生成

问题现象

程序崩溃，提示MongoDB写入失败，无法再连起。

分析原因

1.首先想到分析mongoDB日志记录
通过 cat /etc/mongod.conf找到日志所在目录 /var/log/mongodb/mongod.log

2018-11-07T16:50:44.165+0800  W FTDC     [ftdc] Uncaught exception in 'FileStreamFailed: Failed to write to interim file buffer for full-time diagnostic data capture: /var/lib/mongo/diagnostic.data/metrics.interim.temp' in full-time diagnostic data capture subsystem. Shutting down the full-time diagnostic data capture subsystem.
2018-11-07T16:51:30.913+0800 E STORAGE  [WTCheckpointThread] WiredTiger error (28)：handle-write: pwrite: failed to write 4096 bytes at offset 1486848: No space left on device
2018-11-07T16:51:30.914+0800 E STORAGE  [WTCheckpointThread] WiredTiger error (28): fatal checkpoint failure: No space left on device
2018-11-07T16:51:30.914+0800 E STORAGE  [WTCheckpointThread] WiredTiger error (-31804)  WT_SESSION.checkpoint: the process must exit and restart: WT

日志反馈的信息很明确，一句话就是“磁盘已被写满啦！”，但是很奇怪，写入量并不大，且只有唯一任务在执行，写满是不可能的。
可能想到的问题是蠕虫病毒，或是由程序递归，死循环等造成的错误数据写入。

2.那么现在的任务就是迅速找到这些被误写入的文件，我现在只希望只写在一个大文件中，若是若干个碎片文件查找起来会很痛苦（虽然也可通过写入时间搜索）。
幸好所在磁盘分区不大，首先进入数据目录所在分区根目录，查找大于100M的单文件 find . -type f -size +100M。很快定位到一个16G的日志文件!验证了之前的猜想。

3.为什么会形成如此大的日志文件？？？初步分析是由一个第三方库写入的。