目前在做一个zookeeper的集群管理,如果其中某一个挂了,及时重启。
所以采用crontab进程来每分钟执行一次脚本,查询zk进程,如果发现挂了马上重启。
脚本内容如下:
#!/bin/sh
PATH=/usr/lib64/qt-3.3/bin:/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin:/usr/local/jdk/bin:/usr/local/jdk/jre/bin:/home/zookeeper/bin:/home/zookeeper/conf:/root/bin
proc_name="zookeeper" # 进程名
file_name="/home/zookeeper/monitor.log" # 日志文件
pid=0
proc_num() # 计算进程数
{
num=`ps -ef | grep $proc_name | grep -v grep | grep -v /home/zookeeper | wc -l`
return $num
}
proc_id() # 进程号
{
pid=`ps -ef | grep $proc_name | grep -v grep | awk '{print $2}'`
}
proc_num
number=$?
echo `ps -ef | grep $proc_name`
echo $PATH >> $file_name
if [ $number -eq 0 ] # 判断进程是否存在
then
cd /home/zookeeper/bin/; ./zkServer.sh start # 重启进程的命令,请相应修改
proc_id # 获取新进程号
echo ${pid}, `date` >> $file_name # 将新进程号和重启时间记录
fi
添加脚本后记得chmod 777 monitor.sh 为脚本添加执行权限
chkconfig --level 35 crond on 添加crond服务为开机自启
crontab -e编辑,并添加相关脚本配置(每分钟执行一次)。
*/1 * * * * /home/zookeeper/monitor.sh >/dev/null 2>&1 >> /home/zookeeper/monitor.log
service crond status查看进程是否启动,如果没有service crond start命令启动进程。
脚本逻辑很简单,查询进程是否存在,如果不存在则重启,同时记录相关信息到log
tips:
过程中遇到一个问题搞了很久。手动运行脚本时发现
ps -ef | grep $proc_name | grep -v grep | grep -v /home/zookeeper | wc -l
查询语句的结果为0,代表没有相关进程,则会执行zk启动指令来重启zk。
但是在crontab中运行时,却发现这个查询语句查询结果为3. 经过资料查询,可能是因为环境变量导致问题发送,所以
echo `ps -ef | grep $proc_name`
echo $PATH >> $file_name
打印对应的进程和环境变量path。经过对比发现path不同,所以将环境变量统一,即在脚本开头加上PATH声明。
而多出的进程则可以发现是crontab的进程,因为脚本存放文件夹包含zookeeper所以查询到zookeeper相关进程包含了这些,所以给与屏蔽
grep -v /home/zookeeper
经过修改,脚本运行正常。zk监听工作完成。