现象:
金品四子星一个节点总是重启,查看硬件告警(EDACsbridge:lostmemoryerrors),×××的电源灯一直在不间断的闪烁
对策&思路:
重启系统,发现内存报错信息同;
df-h发现/dev/mapper/pve-root已用100%;
ncdu-x/(前提你的系统必须事先得安装上ncdu),/var/log/文件过大;
初步定为 判断硬件损坏(内存)报错信息导致日志文件过大,系统溢出。

使用rmfr/var/log/*==========使用df-h恢复正常。

通过web界面访问 https://172.17.10.75:8006 ==========该页无法显示。

cat/var/log/syslog==========查看报错信息。
/var/log/pveproxy/access.log、/var/log/pveam.log==========这两个目录无法访问目录
手动添加这两个目录,依旧通过web不能访问 https://172.17.10.75:8006
/var/log/syslog问题依旧,改文件权限为最高rwx,重启问题依旧,=====奇怪了,某机要局遇到类似的问题,就这么搞得,都好了,郁闷加悲伤!!!
再次细看cat/var/log/syslog,哎呀疏忽大发了,还有一个错误的地方木有注意,报错信息/var/log/cluster/corosync没有发现,或者不存在该目录。

赶紧的:mkdir/var/log/cluster/;touch/var/log/cluster/corosync;chmod-R777/var/log/cluster/*=========重启过后,web访问无压力 spacer.gif
痛定思痛:故障首先查看log,根据日志报错信息,恢复故障;机要局,没有集群,故跟×××公司的不一样,不需要添加/var/log/cluster/corosync.log.