Tsar开源:淘宝内部大量使用的系统监控工具

Tsar是淘宝的一个用来收集服务器系统和应用信息的采集报告工具,如收集服务器的系统信息(cpu,mem等),以及应用数据(nginx、swift等),收集到的数据存储在服务器磁盘上,可以随时查询历史信息,也可以将数据发送到nagios报警。

Tsar能够比较方便的增加模块,只需要按照tsar的要求编写数据的采集函数和展现函数,就可以把自定义的模块加入到tsar中。

Tsar安装 

Tsar目前托管在github上,下载编译安装步骤:

$git clone git://github.com/kongjian/tsar.git
$cd tsar
$make
$make install

安装后:

 

  1. 定时任务配置:/etc/cron.d/tsar,负责每分钟调用tsar执行采集任务;
  2. 日志文件轮转配置:/etc/logrotate.d/tsar,每个月会把tsar的本地存储进行轮转;
  3. Tsar配置文件路径:/etc/tsar/tsar.conf,tsar的采集模块和输出的具体配置;
  4. 模块路径:/usr/local/tsar/modules,各个模块的动态库so文件;

 

Tsar配置

Tsar刚安装完,还没有历史数据,想要check是否正常,执行tsar -l,查看是否有实时信息输出:

Tsar的配置主要都在/etc/tsar/tsar.conf中,常用的有:

 

  • 增加一个模块,添加 mod_<yourmodname> on 到配置文件中
  • 打开或者关闭一个模块,修改mod_<yourmodname> on/off
  • output_stdio_mod 能够配置执行tsar时的输出模块
  • output_file_path 采集到的数据默认保存到的文件(如果修改的话需要对应修改轮转的配置/etc/logrotate.d/tsar
  • output_interface 指定tsar的数据输出目的,默认file保存本地,nagios/db输出到监控中心/数据库中,这两个功能还需要结合其它配置,具体见后面

Tsar使用 

 

 

  • 查看历史数据,tsar
  • -l/--list 查看可用的模块列表
  • -l/--live 查看实时数据,tsar -l --cpu
  • -i/--interval 指定间隔,历史,tsar -i 1 --cpu
  • --modname 指定模块,tsar --cpu
  • -s/--spec 指定字段,tsar --cpu -s sys,util
  • -d/--date 指定日期,YYYYMMDD或者n代表n天前
  • -C/--check 查看最后一次的采集数据
  • -d/--detail 能够指定查看主要字段还是模块的所有字段
  • -h/--help 帮助功能

 

高级功能 

 

  • 输出到nagios

 

配置: 首先配置output_interface file,nagios,增加nagios输出

然后配置nagios服务器和端口,以及发送的间隔时间

####The IP address or the host running the NSCA daemon
server_addr nagios.server.com
####The port on which the daemon is running - default is 5667
server_port 8086
####The cycle of send alert to nagios
cycle_time 300

由于是nagios的被动监控模式,需要指定nsca的位置和配置文件位置

####nsca client program
send_nsca_cmd /usr/bin/send_nsca
send_nsca_conf /home/a/conf/amon/send_nsca.conf

接下来指定哪些模块和字段需要进行监控,一共四个阀值对应nagios中的不同报警级别

####tsar mod alert config file
####threshold [hostname.]servicename.key;w-min;w-max;c-min;cmax;
threshold cpu.util;50;60;70;80;

 

  • 输出到Mysql

 

配置: 首先配置output_interface file,db,增加db输出

然后配置哪些模块数据需要输出

output_db_mod mod_cpu,mod_mem,mod_traffic,mod_load,mod_tcp,mod_udpmod_io

然后配置sql语句发送的目的地址和端口

output_db_addr console2:56677

目的地址在该端口监听tcp数据,并且把数据入库即可,可以参照 tsar2db

模块开发

Tsar的一个比较好的功能是能够增加自己的采集,这时候需要编写模块代码,编译成so文件即可。

首先安装tsardevel,刚才安装时,如果执行make tsardevel,就会把模块开发的基本文件安装到系统 然后执行tsardevel ,就能在当前模块生成一个模块目录:

[kongjian@v132172.sqa.cm4 tsar]$ tsardevel test
build:make
install:make install
uninstall:make uninstall
[kongjian@v132172.sqa.cm4 tsar]$ ls test
Makefile &nbsp;mod_test.c &nbsp;mod_test.conf

按照要求修改mod_test.c中的read_test_stats,set_test_record 完成后make;make install就完成新模块的配置文件和so的设置,执行tsar --test就能查看效果。

另外也可以通过配置文件对自定义模块传递参数,方法是修改配置文件中的mod_test on myparameter 然后在mod_test.c中的read_test_stats函数中,通过parameter参数就可以获得刚才配置文件中的内容。

目前开源世界中暂没有一个比较成熟的zookeeper-monitor,公司内部的各个zookeeper运行也都是无监控,无报表状态。于是开始zookeeper监控这块工作。 目前zookeeper-monitor能做哪些事情,讲到这个,首先来看看哪些因素对zookeeper正常工作比较大的影响: 用于zookeeper写日志的目录要有足够大小,并且强烈建议在单独的磁盘(挂载点)上,这是影响ZK性能最大因素之一。 连接数。 注册的Watcher数。 ZNode是否可读,可写。 ZK事件通知的延时是否过大。 围绕以上几点展开,完成了taokeeper一期的开发,目前主要完成以下方面的监控: l CPU/MEM/LOAD的监控 l ZK日志目录所在磁盘剩余空间监控 l 单机连接数的峰值报警 l 单机 Watcher数的峰值报警 l 节点自检:是指对集群中每个IP所在ZK节点上的PATH: /YINSHI.MONITOR.ALIVE.CHECK 定期进行三次如下流程 : 节点连接 – 数据发布 – 修改通知 – 获取数据 – 数据对比, 在指定的延时内,三次流程均成功视为该节点处于正常状态。 如何安装部署 一、直接部署 1. 下载taokeeper.sql,并初始化Mysql数据库 2. 下载taokeeper-monitor.zip文件,解压到tomcat的webapps目前下,确保最后目录结构如下: %TOMCAT_HOME%\webapps\taokeeper-monitor\WEB-INF 3. 编辑 %TOMCAT_HOME%\webapps\taokeeper-monitor\WEB-INF\logback.xml 以下配置: 4. 编辑 %TOMCAT_HOME%\webapps\taokeeper-monitor\WEB-INF\spring-beans.xml <property name=”maxActive”
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值