今天遇到一个现场,16节点每节点48盘位集群,5mon重启运行过程中,系统卡分区被挤爆,占用达100%,为了重启拉起mon,做了如下排查:
-
通过du -Bm --max-depth=1 / 和 du -d1 -Bm -h ./查找根分区下的大文件,找到mon rocksdb数据库的sst文件总和竟达到7g之多,这个肯定不能删,后续会专门说明一下这个文件为什么这么大
-
通过问题1找到了大文件,但是不能删,只能通过删除根分区下其他的大文件来讲根分区释放处理, 大致找了下一些没有用处的rpm安装包,然后进行了卸载,命令如下:
yum autoremove texlive-base
yum autoremove mariadb-test
yum autoremove emacs
yum autoremove gnome-weather
yum autoremove net-snmp
yum autoremove net-snmp-libs
yum autoremove gimp -
/var/log/journal/abf6c3e0a96f452ab2efd6c2d1a9c1e0/ 这个文件占用了大量空间,通过对journal分区的修改,释放出了近1g的空间,journal空间为日志/var/log/message的journal,journal的具体作用就不多说了,基本命令如下:
vi /etc/systemd/journald.conf
SystemMaxUse=800M 修改此值为80M
systemctl restart systemd-journald 重启该服务
ll /var/log/journal/abf6c3e0a96f452ab2efd6c2d1a9c1e0/ 查看大小确实变小了不少
经过上面几部的处理基本将系统卡空间释放出了不少,这时候重启了一下mon,mon起来了,mon运行一段时间后mon 数据库rocksdb 的sst文件被trim掉,空间彻底释放了出来。
.