http://jm.taobao.org/?p=1450


        在公司内部,有不少应用已经强依赖zookeeper,zookeeper的工作状态直接影响它们的正常工作。目前开源世界中暂没有一个比较成熟的zookeeper-monitor, 于是开始zookeeper监控这块工作。

目前zookeeper-monitor能做哪些事情,讲到这个,首先来看看哪些因素对zookeeper正常工作比较大的影响:

  1. 用于zookeeper写日志的目录要有足够大小,并且强烈建议在单独的磁盘(挂载点)上,这是影响ZK性能最大因素之一。

  2. 连接数。

  3. 注册的Watcher数。

  4. ZNode是否可读,可写。

  5. ZK事件通知的延时是否过大。

围绕以上几点展开,完成了taokeeper一期的开发,目前主要完成以下方面的监控:(项目地址:https://github.com/alibaba/taokeeper

l  CPU/MEM/LOAD的监控

l  ZK日志目录所在磁盘剩余空间监控

l  单机连接数的峰值报警

l  单机 Watcher数的峰值报警

l  节点自检:是指对集群中每个IP所在ZK节点上的PATH: /YINSHI.MONITOR.ALIVE.CHECK 定期进行三次如下流程 : 节点连接 - 数据发布 - 修改通知 - 获取数据 - 数据对比, 在指定的延时内,三次流程均成功视为该节点处于正常状态。


一、安装

环境:jdk + tomcat + mysql + taokeeper

直接部署

先安装好java jkd及tomcat环境(支持高版本jdk及tomcat,这里使用的jdk 1.8.0_77, apache-tomcat-8.0.33, tomcat 6 7 8都支持)

下载jdk bin包,tomcat bin包,添加环境变量

如:

## JAVA

export JAVA_HOME=/usr/local/java/jdk

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar


## TOMcat

export CATALINA_HOME=/usr/local/apache-tomcat

## PATH

export PATH=$JAVA_HOME/bin:/usr/local/apache-tomcat/bin


下载地址:http://pan.baidu.com/s/1kVet0rX

1.1 下载taokeeper.sql,初始化数据库(Mysql).
1.2 下载taokeeper-monitor.war文件,解压到tomcat的webapps目前下,确保最后目录结构如下:  %TOMCAT_HOME%\webapps\taokeeper-monitor.war

1.3 每个zookeeper服务器上新建用户一个用户,如zk  密码 zk

1.4 每个zookeeper服务器上安装nc软件,yum -y install nc   # 不安装nc会导致zookeeper监控信息出不来,zk的角色、连接娄等信息就是通过SSH远程执行nc命令,如nc 10.100.11.13 2181

1.5 下载 taokeeper-monitor-config.properties文件,存放到一个指定目录,比如

/usr/local/taokeeper/taokeeper-monitor-config.properties, 其中内容如下,根据需要自己修改下。

##-------------------------------------

#Daily-TB


systemInfo.envName=DAILY-TB


#DBCP

dbcp.driverClassName=com.mysql.jdbc.Driver

dbcp.dbJDBCUrl=jdbc:mysql://localhost:3306/taokeeper

dbcp.characterEncoding=GBK

dbcp.username=root

dbcp.password=admin

dbcp.maxActive=30

dbcp.maxIdle=10

dbcp.maxWait=10000


#SystemConstant

#SystemConstent.dataStoreBasePath=/home/admin/taokeeper-monitor/datastore/

SystemConstent.dataStoreBasePath=/var/lib/taokeeper

# ssh用户

SystemConstant.userNameOfSSH=zk

# ssh用户密码

SystemConstant.passwordOfSSH=zk

# ssh端口

SystemConstant.portOfSSH=22

#Optional

SystemConstant.configOfMsgCenter=


##-------------------------------------

1.6 在tomcat启动脚本中添加JAVA_OPTS

head /usr/local/apache-tomcat/bin/catalina.sh

#!/bin/sh


# description: Start and stop tomcat

# chkconfig: - 21 79


JAVA_HOME=/usr/local/java/jdk

CATALINA_HOME=/usr/local/apache-tomcat

JAVA_OPTS=-DconfigFilePath="/usr/local/taokeeper/taokeeper-monitor-config.properties"

CATALINA_PID="$CATALINA_HOME/tomcat.pid"


ps:可以把 /usr/local/tomcat/bin/catalina.sh 复制到 /etc/init.d/tomcat

centos 7启动脚本(centos 7中没有测试成功):

/usr/lib/systemd/system/tomcat.service

#####

[Unit]

Description=Tomcat

After=syslog.target network.target remote-fs.target nss-lookup.target

 

[Service]

Type=forking

PIDFile=/usr/local/apache-tomcat/tomcat.pid

ExecStart=/usr/local/apache-tomcat/bin/catalina.sh start

ExecReload=/bin/kill -s HUP $MAINPID

ExecStop=/bin/kill -s QUIT $MAINPID

PrivateTmp=true

 

[Install]

WantedBy=multi-user.target

##### 


1.7 关闭tomcat日志,要不然 $CATALINA_HOME/logs/catalina.out 文件很容易就写得很大,直到空间用完

修改/etc/init.d/tomcat启动脚本 和 $CATALINA_HOME/bin/catalina.sh

把CATALINA_OUT="$CATALINA_BASE"/logs/catalina.out 替换为 CATALINA_OUT=/dev/null


把 webapps下taokeeper-monitor/WEB-INF/classes/log4j.properties

所有 INFO 改成 OFF

log4j.appender.ROLLINGFILE.File=/home/admin/taokeeper-monitor/logs/taokeeper-monitor.log 改成

log4j.appender.ROLLINGFILE.File=/dev/null

log4j.appender.CHECKDATAFILE.File=/home/admin/taokeeper-monitor/logs/taokeeper-check-data.log 改成

log4j.appender.CHECKDATAFILE.File=/dev/null


1.8 tomcat 设置http BASIC认证

1.8.1 设置tomcat角色与、用户、密码

编辑 tomcat根目录下的 conf/tomcat-users.xml,在<tomcat-users></tomcat-users>内添加下面内容

  <role rolename="tomcat"/>

  <role rolename="role1"/>

  <user name="admin1" password="admin1" roles="tomcat,role1" />

  <user name="admin2" password="admin2" roles="tomcat,role1" />


1.8.2

webapps下taokeeper-monitor/WEB-INF/web.xml 在<web-app></web-app>内添加如下内容 

#############

<security-constraint>

    <web-resource-collection>

        <web-resource-name>

            TaoKeeper

        </web-resource-name>

        <url-pattern>/*</url-pattern>

    </web-resource-collection>

    <auth-constraint>

        <role-name>tomcat</role-name>

        <role-name>role1</role-name>

    </auth-constraint>

</security-constraint>


<login-config>

    <auth-method>BASIC</auth-method>

    <realm-name>TaoKeeper</realm-name>

</login-config>

#############


1.8.3 重启tomcat服务即可




二、 使用:

1.1 taokeeper-monitor启动后,还没有配置任何zookeeper集群,点击“加入监控”进行集群添加。

wKiom1eZcM2haFL6AABPA2MAbpc647.png



1.2  配置zookeeper集群信息(点击查看大图)


wKiom1eZcObDvRRvAABwfuermPk783.png


wKioL1cMpKHiS4_0AADmMEtjQbA519.png点击状态对应按钮可以查看当前服务器上所有订阅者的详细信息:

wKioL1cMpY-yItabAADIJW2k7l4680.pngZooKeeper监控报警设置

wKioL1cMpfHzfPtBAADLCgM7Zy4598.png


ZooKeeper集群状态趋势图

点击 查看趋势

wKiom1cMpfPgV7GIAAErFliUtH4496.png