错误原因
出现错误的原因是由于我突发奇想写了一个reboot集群的脚本,导致集群非法关机,然后就炸了。。。
错误表现、解决过程
在我使用上述reboot脚本后,发现MobaXterm(远程工具)ssh死活连不上了。
赶紧检查集群,发现如下报错:
开机报错
由于心急没有管报错(第一次见看不懂),直接输密码进入界面(我的是无可视化界面的CentOS 6.5)。
进界面后首先尝试ssh其他节点。报错。
尝试从宿主机ping虚拟机,也ping不通。
那么首先确定网络问题,查看/etc/sysconfig/network-scripts/ifcfg-eth0下的ip配置。
没有问题。
输入命令查看ip:
[root@RuHuTian ~] ip addr
控制台信息
发现只有127.0.0.1,此时基本确定网络服务故障或未自启动。
输入命令启动网络服务:
[root@RuHuTian ~] service network start
[root@RuHuTian ~] ip addr
可以看到ip正常了。
测试宿主机ping虚拟机也正常了。
测试虚拟机ping虚拟机也正常了。
测试ssh本机也正。。。等等!
ssh没通,报错如下:
image.png
和最开始的报错是一样的,有了经验,大致也猜测的出很有可能sshd服务也没有自启动。
输入sshd启动命令:
[root@RuHuTian ~] service sshd start
控制台报错信息:
/var/lock/subsys/sshd not group or world-writable
出现此报错,整个系统问题已经初现端倪。
虽然启动sshd服务报错了,但尝试ssh本机却正常了。
此时试着启动集群的各个进程。
果然,大量报错。
只读文件系统报错
只读文件系统 几个大字摧毁我幼小的心灵
想起解决的网络、ssh问题,明白了罪恶的源头就在....
就是它!万恶之源!
燕返
首先查看挂载的分区:
[root@RuHuTian ~] mount
又有报错,不过看不懂。猜测是mount命令相关的文件也被修改成只读了。
开机报错的/dev/sda1分区并没有挂载,而/dev/sda3是正常的rw(读写)状态。
我有点晕。
尝试修复/dev/sda3分区:
[root@RuHuTian ~] fsck /dev/sda3
第一次使用fsck命令,看不太明白,不过该命令没起到什么作用。
有点绝望,随手尝试了修改/dev/sda3分区的状态:
[root@RuHuTian ~] mount -o remount,rw /dev/sda3
居然不报错了!
至此报错全部消失,网络服务和ssh服务也正常开机自启了。
留下懵逼的我,具体原理日后学习再补充。