本文索引
- 告警系统邮件引擎
- 运行告警系统
本文是博文《一个简单的自定义监控系统实现》的剩余部分
告警系统邮件引擎
这里使用mail.py进行邮件发送,mail.py是从网上找到的一个发送邮件的Python脚本。
#!/usr/bin/env python
#-*- coding: UTF-8 -*-
import os,sys
reload(sys)
sys.setdefaultencoding('utf8')
import getopt
import smtplib
from email.MIMEText import MIMEText
from email.MIMEMultipart import MIMEMultipart
from subprocess import *
def sendqqmail(username,password,mailfrom,mailto,subject,content):
gserver = 'smtp.163.com' //qq邮箱写smtp.qq.com
gport = 25
try:
msg = MIMEText(unicode(content).encode('utf-8'))
msg['from'] = mailfrom
msg['to'] = mailto
msg['Reply-To'] = mailfrom
msg['Subject'] = subject
smtp = smtplib.SMTP(gserver, gport)
smtp.set_debuglevel(0)
smtp.ehlo()
smtp.login(username,password)
smtp.sendmail(mailfrom, mailto, msg.as_string())
smtp.close()
except Exception,err:
print "Send mail failed. Error: %s" % err
def main():
to=sys.argv[1]
subject=sys.argv[2]
content=sys.argv[3]
##定义QQ邮箱的账号和密码,你需要修改成你自己的账号和密码(请不要把真实的用户名和密码放到网上公开,否则你会死的很惨)
sendqqmail('1234567@qq.com','aaaaaaaaaa','1234567@qq.com',to,subject,content)
if __name__ == "__main__":
main()
真正的mail脚本:mail.sh
#!/bin/bash
# 用来告警收敛,使得不要频繁告警
# 这里主要实现了一个计时器功能
log=$1
t_s=`date +%s` //定义一个时间戳
t_s2=`date -d "2 hours ago" +%s` //定义一个2小时前的时间戳
if [ ! -f /tmp/$log ] // 判断日志是否存在,就创建;日志用来记录时间戳
then
echo $t_s2 > /tmp/$log
fi
t_s2=`tail -1 /tmp/$log | awk '{print $1}'` // 获取日志最后一行上的时间戳
echo $t_s>>/tmp/$log // 写入当前时间戳
v=$[$t_s-$t_s2] // 2个时间戳时间间隔
echo $v
// 判断时间间隔是否大于1小时,符号就告警
// 这个判断是对新主机执行脚本时的判断
if [ $v -gt 3600 ]
then
./mail.py $1 $2 $3
echo "0" > /tmp/$log.txt
else
if [ ! -f /tmp/$log.txt ]
then
echo "0" > /tmp/$log.txt // 记录告警次数,0清空数值,开始一个新的计数周期
fi
nu=`cat /tmp/$log.txt`
nu2=$[$nu+1]
echo $nu2 > /tmp/$log.txt
if [ $nu2 -gt 10 ] // 10钟后发告警
then
./mail.py $1 "trouble continue 10 min $2" "$3"
echo "0" > /tmp/$log.txt //重新计数
fi
fi
mail.sh脚本说明
这个脚本实现的核心是计数器和计时器的功能,配合crond服务进行周期性执行,控制告警周期。
计时器代码块
log=$1
t_s=`date +%s`
t_s2=`date -d "2 hours ago" +%s`
if [ ! -f /tmp/$log ]
then
echo $t_s2 > /tmp/$log
fi
t_s2=`tail -1 /tmp/$log | awk '{print $1}'`
echo $t_s>>/tmp/$log
v=$[$t_s-$t_s2]
echo $v
if [ $v -gt 3600 ]
then
./mail.py $1 $2 $3
echo "0" > /tmp/$log.txt
else
#先不看
fi
说明的代码实现的就是计时器的功能:首先判断计时日志文件是否存在
- 文件不存在,表示为新服务器,给予2小时前的时间戳;这样后续t_s2变量从文件内获取的时间就是新赋值的时间,时间间隔肯定大于3600,进入判断语句,立即发送告警邮件;
- 文件存在,获取到的时间就为mail.sh执行间隔时间,这里假设为1分钟即60s,这样在进入判断时执行的就是下面的计数器代码了;
计数器代码
if [ $v -gt 3600 ]
then
./mail.py $1 $2 $3
echo "0" > /tmp/$log.txt
else
if [ ! -f /tmp/$log.txt ]
then
echo "0" > /tmp/$log.txt
fi
nu=`cat /tmp/$log.txt`
nu2=$[$nu+1]
echo $nu2 > /tmp/$log.txt
if [ $nu2 -gt 10 ]
then
./mail.py $1 "trouble continue 10 min $2" "$3"
echo "0" > /tmp/$log.txt
fi
fi
- 第二次执行mail.sh时,此时
/tmp/$log.txt
应该为空,直接赋值0,开始计数,执行之后的代码值变为1; - 之后每次执行mail.sh,计数器值+1,当计数器值大于10,即10分钟过后,发送告警邮件,并再次清空计数器,重新计数;
运行告警系统
最终的目录结构
[root@localhost ~]# tree /usr/local/sbin/mon
/usr/local/sbin/mon
├── bin
│ └── main.sh
├── conf
│ └── mon.conf
├── log
├── mail
│ ├── mail.py
│ └── mail.sh
└── shares
├── 502.sh
├── disk.sh
└── load.sh
编写cron计划
# 每分钟执行一次,这样告警时间间隔收敛至10分钟,这里必须进入到/usr/local/sbin/mon/bin目录下
[root@localhost ~]# crontab -e
* * * * * cd /usr/local/sbin/mon/bin; bash main.sh