内核有它自己的方法处理挂起的系统,叫做watchdog,watchdog只是一个内核模块,它检查计时器确定系统是健康的,如果watchdog认为内核挂起,它可能做出激烈的响应,如重启系统,如果你想保护你的高可用服务器配置,服务器挂起时导致服务中断,Heartbeat也检测不到,你应该在你的内核中启用watchdog。
注意:这里我们讨论的是服务器挂起而不是应用程序问题,Heartbeat(在编写本书时Heartbeat 2之前的版本还不可用)不会监视它控制的资源或应用程序,看其是否健康 -- 要监视必须使用另一个软件包,如Mon,将在第四部分中详细讨论它。
正常情况下,连接到系统的watchdog设备允许内核判断系统是否挂起(当内核看不到外部的计时器设备正确地更新时,它就知道出现某些错误了)。
watchdog代码也支持用软件替换外部的硬件计时器,该软件叫做softdog,softdog维护一个内部计时器,在另一个进程写入/dev/watchdog设备文件时更新,如果softdog没有看到进程写入/dev/watchdog文件,它认为内核一定出故障了,它将启动一个内核恐慌,正常情况下,内核恐慌将导致系统关闭,但是你可以修改这个默认行为,将其改为默认行为为重启系统。
在内核中启用Watchdog
要在内核中启用watchdog,首先你需要确定softdog模块已经编译进内核了。
注意:在一个正常的Red Hat或SuSe发行版上你不需要将watchdog添加到内核,因为标准发布的版本Red Hat内核已经包括了一个已经编译好的softdog模块的副本。
如果你从源代码编译的内核,从/usr/src/linux目录运行makemenu config命令,在下面的子菜单中检查或启用“Software Watchdog”选项:
Character Devices【字符设备】
Watchdog Cards --->【watchdog插件】
[*] Watchdog Timer Support【watchdog计时器支持】
[M] Software Watchdog (NEW)【软件watchdog(新)】
|
如果在内核中这个选项没有被选中,按照第3章中描述的步骤重新编译并安装你的新内核,如果你正在使用Red Hat提供的标准模块内核(或如果你刚刚编译完你自己的内核,并启用了software watchdog支持),输入下面的命令确定该模块是否载入了当前运行的内核:
#insmod softdog
#lsmod
|
你应该看到列出了softdog,正常情况下,如果你在/etc/ha.d/ha.cf中启用了watchdog支持,Heartbeat开关(init)脚本将为你插入这个模块,假设启用了watchdog,现在你应该从内核中移除它,并允许Heartbeat在它启动时为你添加,使用下面的命令从内核中移除softdog:
#modprobe -r softdog |
内核恐慌 -- 挂起还是重启?
在内核恐慌时要强制系统重启而不是暂停,需要修改传递给内核的启动参数,在使用LILO启动装入程序的系统上,编辑/etc/lilo.conf文件,在“image=”行前增加下面这样一行内容:
append="panic=60"
|
然后运行:
#lilo -v |
也可以使用下面的命令:
#echo 60 > /proc/sys/kernel/panic |
配置Heartbeat支持Watchdog
除使用我们刚刚描述的(作为服务器正常配置的一部分,在系统挂起时提升它的可靠性)softdog计时器之外,你可以告诉Heartbeat更新softdog计时器,这让watchdog知道Heartbeat正在运行并很健康,如果计时器没有更新,watchdog将通知并强制内核恐慌,实际上,我们是告诉watchdog观察Heartbeat。
注意:使用Heartbeat 1.2.3时,你可以用apphbd观察Heartbeat,然后让watchdog观察apphbd。
当你在/etc/ha.d/ha.cf文件中启用了watchdog选项后,Heartbeat将每隔相当于deadtime长的时间写入/dev/watchdog文件(或设备),因此,出现任何导致Heartbeat更新watchdog设备失败的事情,一旦watchdog超时周期(默认是一分钟)过期,watchdog将启动内核恐慌。
#vi /etc/ha.d/ha.cf |
取消下面这一行的注释符号:
watchdog /dev/watchdog
|
重启Heartbeat,让Heartbeat开关(init)脚本准确地配置watchdog设备:
#service heartbeat restart |
当你运行下面的命令时你应该看到softdog:
#lsmod |
注意:你应该在所有Heartbeat服务器上做这个事情,以便保持所有的Heartbeat配置是一致的。
要测试watchdog的行为,在主服务器上使用下面的命令杀掉所有的正在运行的Heartbeat守护进程:
#killall -9 heartbeat
|
你应该在系统终端和/var/log/messages文件中看到下面的警告消息:
Softdog: WDT device closed unexpectedly. WDT will not stop!
|
这个错误告诉你内核将恐慌,你的系统应该重启