应用场景
最近单位业务专网对端服务器隔三岔五就访问不了,一会儿是运营商问题,一会儿是服务器掉线,当然偶尔会是本地网络或本地网络出口存在问题,问题排查起来还是比较麻烦的。所以尝试编写了个脚本用于简单的端口监听和故障点分析,并通过邮件的方式通知。
准备工作
这里除了用到shell脚本外,还需要expect脚本。
yum install -y expect
主要文件
首先是测试端口连通性的脚本,这里使用expect脚本,同时返回交互信息。
script.exp
#!/usr/bin/expect
set timeout 2 #设置超时时间,如果2秒内telnet不通,则认为端口不通,结束脚本
set host [lindex $argv 0] #从参数中获取host
set port [lindex $argv 1] #从参数中获取port
spawn telnet $host $port #执行telnet测试端口连通性
expect "*Escape character*" #检查返回信息是否包含*Escape character*
send "\1D\r quit\r" #发送退出telnet快捷键
然后是主体脚本main.sh。
#!/bin/bash
ip=$1 #从参数中获取目的IP
port=$2 #从参数中获取目的端口
TestAddr=$3 #从参数中获取本地网络出口测试地址
Fail=0 #失败标记
FailCount=0 #连续失败次数
Dmail=XXXX@163.com #通知邮箱
while true
do
date=`date`
expect -f script.exp $ip $port | grep "Escape character" > $ip.log
#截取script.exp脚本中返回的包含Escape character的行,重定向到日志文件中,如果telnet失败,则文件为空
if [[ -s $ip.log ]]
then
#若文件存在且不为空,则端口连通
if [[ $Fail -eq 1 ]]
#若端口连通且上一次为失败状态,则执行
then
echo -e "$ip $port 已恢复正常\n$date" | mail -s "$ip $port 已恢复正常" $Dmail
#发送邮件到XXXX@163.com
Fail=0
#重置失败标记
FailCount=0
#重置失败次数
fi
else
FailCount=$(( $FailCount+1 ))
#记录连续失败次数
if [[ $Fail -eq 0 ]]
then
#若端口不通且上一次为连通状态,则执行
ping -c 1 $TestAddr | grep icmp_seq > $ip-$TestAddr.log
#监测本地网络出口是否故障,若结果中不包含icmp_seq则表示本地出口故障
if [[ -s $ip-$TestAddr.log ]]
then
echo -e " $ip $port 无法连接\n $TestAddr 通\n $date" | mail -s "$ip $port 无法连接" $Dmail
#若本地网络出口正常,则发送此条消息,之后联系运营商或联系对应运维人员检查对端服务器状态
else
echo -e " $ip $port 无法连接\n $TestAddr 不通\n $date" | mail -s "$ip $port 无法连接" $Dmail
#若本地网络出口不通,则发送此条消息,检查本地网络设备
fi
Fail=1
#点亮失败标记
fi
if [[ $FailCount -eq 90 ]]
then
#若连续失败次数大于90次,重置失败标记及最大连续失败次数,若仍失败则再次发送邮件提醒。
FailCount=0
Fail=0
fi
fi
sleep 2
done
当然如果要邮件通知,那么还得在/etc/mail.rc中设置邮箱
vim /etc/mail.rc
#在文件尾加入邮箱信息
set from=YYYY@163.com #发送方邮箱
set smtp=smtp.163.com #邮箱服务器地址,需要登录邮箱设置允许smtp登录
set smtp-auth-user=YYYY@163.com #发送方邮箱账号
set smtp-auth-password=************* #发送方邮箱密码
set smtp-auth=login #登录方式,一般就login
最后,如果有多个监控需求,可以写个批量启动脚本start.sh
#!/bin/bash
#目的ip 端口 网关或出口地址
./main.sh 10.XX.XX.XX 80 10.XX.XX.XX &
./main.sh 192.168.1.A 30033 192.168.1.254 &
./main.sh 192.168.1.B 9898 192.168.1.254 &
./main.sh 192.168.1.C 88 192.168.1.254 &
./main.sh 192.168.1.D 1188 192.168.1.254 &
./main.sh 192.168.1.E 3389 192.168.1.254 &
当端口不通和恢复时就会收到邮件提示了,还有具体时间