Heartbeat中Watchdog和Softdog的使用

内核有它自己的方法处理挂起的系统,叫做watchdog,watchdog只是一个内核模块,它检查计时器确定系统是健康的,如果watchdog认为内核挂起,它可能做出激烈的响应,如重启系统,如果你想保护你的高可用服务器配置,服务器挂起时导致服务中断,Heartbeat也检测不到,你应该在你的内核中启用watchdog。

注意:这里我们讨论的是服务器挂起而不是应用程序问题,Heartbeat(在编写本书时Heartbeat 2之前的版本还不可用)不会监视它控制的资源或应用程序,看其是否健康 -- 要监视必须使用另一个软件包,如Mon,将在第四部分中详细讨论它。

正常情况下,连接到系统的watchdog设备允许内核判断系统是否挂起(当内核看不到外部的计时器设备正确地更新时,它就知道出现某些错误了)。

watchdog代码也支持用软件替换外部的硬件计时器,该软件叫做softdog,softdog维护一个内部计时器,在另一个进程写入/dev/watchdog设备文件时更新,如果softdog没有看到进程写入/dev/watchdog文件,它认为内核一定出故障了,它将启动一个内核恐慌,正常情况下,内核恐慌将导致系统关闭,但是你可以修改这个默认行为,将其改为默认行为为重启系统。

在内核中启用Watchdog

要在内核中启用watchdog,首先你需要确定softdog模块已经编译进内核了。

注意:在一个正常的Red Hat或SuSe发行版上你不需要将watchdog添加到内核,因为标准发布的版本Red Hat内核已经包括了一个已经编译好的softdog模块的副本。

如果你从源代码编译的内核,从/usr/src/linux目录运行makemenu config命令,在下面的子菜单中检查或启用“Software Watchdog”选项:

Character Devices【字符设备】
Watchdog Cards --->【watchdog插件】
[*] Watchdog Timer Support【watchdog计时器支持】
[M] Software Watchdog (NEW)【软件watchdog(新)】

如果在内核中这个选项没有被选中,按照第3章中描述的步骤重新编译并安装你的新内核,如果你正在使用Red Hat提供的标准模块内核(或如果你刚刚编译完你自己的内核,并启用了software watchdog支持),输入下面的命令确定该模块是否载入了当前运行的内核:

#insmod softdog
#lsmod

你应该看到列出了softdog,正常情况下,如果你在/etc/ha.d/ha.cf中启用了watchdog支持,Heartbeat开关(init)脚本将为你插入这个模块,假设启用了watchdog,现在你应该从内核中移除它,并允许Heartbeat在它启动时为你添加,使用下面的命令从内核中移除softdog:

#modprobe -r softdog

内核恐慌 -- 挂起还是重启?

在内核恐慌时要强制系统重启而不是暂停,需要修改传递给内核的启动参数,在使用LILO启动装入程序的系统上,编辑/etc/lilo.conf文件,在“image=”行前增加下面这样一行内容:

append="panic=60"

www.ixdba.net


然后运行:

#lilo -v

也可以使用下面的命令:

#echo 60 > /proc/sys/kernel/panic

配置Heartbeat支持Watchdog

除使用我们刚刚描述的(作为服务器正常配置的一部分,在系统挂起时提升它的可靠性)softdog计时器之外,你可以告诉Heartbeat更新softdog计时器,这让watchdog知道Heartbeat正在运行并很健康,如果计时器没有更新,watchdog将通知并强制内核恐慌,实际上,我们是告诉watchdog观察Heartbeat。

注意:使用Heartbeat 1.2.3时,你可以用apphbd观察Heartbeat,然后让watchdog观察apphbd。

当你在/etc/ha.d/ha.cf文件中启用了watchdog选项后,Heartbeat将每隔相当于deadtime长的时间写入/dev/watchdog文件(或设备),因此,出现任何导致Heartbeat更新watchdog设备失败的事情,一旦watchdog超时周期(默认是一分钟)过期,watchdog将启动内核恐慌。

#vi /etc/ha.d/ha.cf

取消下面这一行的注释符号:

watchdog /dev/watchdog

重启Heartbeat,让Heartbeat开关(init)脚本准确地配置watchdog设备:

#service heartbeat restart

当你运行下面的命令时你应该看到softdog:

#lsmod

注意:你应该在所有Heartbeat服务器上做这个事情,以便保持所有的Heartbeat配置是一致的。

要测试watchdog的行为,在主服务器上使用下面的命令杀掉所有的正在运行的Heartbeat守护进程:

#killall -9 heartbeat

你应该在系统终端和/var/log/messages文件中看到下面的警告消息:

Softdog: WDT device closed unexpectedly. WDT will not stop!

这个错误告诉你内核将恐慌,你的系统应该重启

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值