Zabbix之自定义监控进程与日志

Zabbix之自定义监控配置


环境说明:

操作系统主机名IP地址
Centos8(zabbix server)zabbix192.168.92.139
Centos8(zabbix agent)web01192.168.92.130

本次自定义监控项配置是在server与agent已部署的基础上操作的。

部署Server请移步至👉部署zabbix server

部署agent请移步至👉部署zabbix agent

进程监控

1.在agent端编写脚本,取出需要监控资源的状态值

//创建存放脚本的目录
[root@web01 ~]# mkdir /scripts
//编写
[root@web01 ~]# vim /scripts/check_process.sh
#!/bin/bash
status=$(ps -ef |grep $1|grep -Ev "$0|grep"|wc -l)
if [ $status -eq 0 ];then
    echo '1'
else
    echo '0'
fi
//让该脚本有执行的权限
[root@web01 scripts]# chmod +x check_process.sh
[root@web01 scripts]# ll
total 4
-rwxr-xr-x 1 root root 124 Sep  6 11:35 check_process.sh

check_process脚本注释:

//$()里的这条命令串是过滤$1的进程并用wc -l计数,$1是可键入的值。\
//$0是去掉grep这条进程的本身,
status=$(ps -ef |grep $1|grep -Ev "$0|grep"|wc -l)
//下面这几条意思是,上面一条命令的执行结果等于0则输出1,否则输出0。\
//输出1则代表$1的进程数是0,也就是没有进程,说明服务出现问题。
if [ $status -eq 0 ];then
    echo '1'
else
    echo '0'
fi

2.在agent端编辑配置文件

//将下面两行取消注释作修改,或者直接添加这两行
[root@web01 ~]# vim /usr/local/zabbix_agent/etc/zabbix_agentd.conf
UnsafeUserParameters=1			#是否启用自定义监控项,可选值为{1|0}
UserParameter=check_process[*],/bin/bash /scripts/check_process.sh $1

//重启agent,生效作更改的配置
[root@web01 ~]# pkill zabbix_agent
[root@web01 ~]# /usr/local/zabbix_agent/sbin/zabbix_agentd

//在Server端测试刚刚所做的进程监控配置
//在agent端yum安装一个httpd服务,但没有mysql服务。测试结果如下
[root@zabbix ~]# zabbix_get -s 192.168.92.130 -k check_process[httpd]
0
[root@zabbix ~]# zabbix_get -s 192.168.92.130 -k check_process[mysql]
1

3.在web界面添加监控项

在配置栏的【Hosts】界面选择给哪台主机添加监控项,点击【items】。

image-20220906115018374

进入【items】界面后点击右上角的【Create item】创建监控项。

image-20220906115305981

这里的key就是配置文件里的check_process[*],我们这里监控httpd进程,就把*换为httpd

image-20220906133358963

4.在web界面添加触发器

在配置栏的【Hosts】界面选择给哪台主机添加监控项,点击【Triggers】。

image-20220906133717983

进入【Triggers】界面后,点击右上角的【Create trigger】创建触发器。

image-20220906133808455

表达式的内容是先点击右边的【Add】进行添加的,添加的内容在下一张图中。

image-20220906134500473

这条表达式是前面配置的脚本中$1键入httpd,如果脚本输出结果等于1则触发告警。

image-20220906134433519

进入配置栏的【Hosts】界面后点击【items】。可以看到这条监控项有了一个触发器。

image-20220906134945266

5. 触发验证

手动触发告警

[root@web01 ~]# systemctl stop httpd

进入监控栏的仪表板界面查看,发现触发了告警

image-20220906135601237

可以看到邮箱也收到了告警信息。

关于如何配置告警邮件请移步至👉部署告警邮件

image-20220906135842664


日志监控

1.在agent端编写脚本,取出需要监控资源的状态值

//下载python的编译器
[root@web01 ~]# dnf -y install python3
//写python脚本。因shell脚本只能在Linux系统执行,如zabbix需要监控Windows系统\
//则需要python脚本,py脚本在这两操作系统都能运行
[root@web01 ~]# vim /scripts/log.py
#!/usr/bin/env python3
import sys
import re

def prePos(seekfile):
    global curpos
    try:
        cf = open(seekfile)
    except IOError:
        curpos = 0
        return curpos
    except FileNotFoundError:
        curpos = 0
        return curpos
    else:
        try:
            curpos = int(cf.readline().strip())
        except ValueError:
            curpos = 0
            cf.close()
            return curpos
        cf.close()
    return curpos

def lastPos(filename):
    with open(filename) as lfile:
        if lfile.readline():
            lfile.seek(0,2)
        else:
            return 0
        lastPos = lfile.tell()
    return lastPos

def getSeekFile():
    try:
        seekfile = sys.argv[2]
    except IndexError:
        seekfile = '/tmp/logseek'
    return seekfile

def getKey():
    try:
        tagKey = str(sys.argv[3])
    except IndexError:
        tagKey = 'Error'
    return tagKey

def getResult(filename,seekfile,tagkey):
    destPos = prePos(seekfile)
    curPos = lastPos(filename)

    if curPos < destPos:
        curpos = 0

    try:
        f = open(filename)
    except IOError:
        print('Could not open file: %s' % filename)
    except FileNotFoundError:
        print('Could not open file: %s' % filename)
    else:
        f.seek(destPos)

        while curPos != 0 and f.tell() < curPos:
            rresult = f.readline().strip()
            global result
            if re.search(tagkey, rresult):
                result = 1
                break
            else:
                result = 0

        with open(seekfile,'w') as sf:
            sf.write(str(curPos))
    finally:
        f.close()
    return result

if __name__ == "__main__":
    result = 0
    curpos = 0
    tagkey = getKey()
    seekfile = getSeekFile()
    result = getResult(sys.argv[1],seekfile,tagkey)
    print(result)

[root@web01 ~]# chmod +x /scripts/log.py
[root@web01 ~]# ll /scripts/log.py
-rwxr-xr-x 1 root root 1854 Sep  6 14:07 /scripts/log.py
//测试一下该脚本是否可用,0代表没问题
[root@web01 ~]# /scripts/log.py /var/log/httpd/error_log
0
//关于该文件请往下看写的log.py脚本的注释
[root@web01 ~]# cat /tmp/logseek
2915		//该数字记录着读取到哪儿了
//用例子来说明2915这个数字是怎么来的
[root@web01 ~]# echo 'test' >> /var/log/httpd/error_log
[root@web01 ~]# echo 'test' >> /var/log/httpd/error_log
[root@web01 ~]# echo 'test' >> /var/log/httpd/error_log
执行脚本检查httpd的错误日志
[root@web01 ~]# /scripts/log.py /var/log/httpd/error_log
0
//执行完脚本后,可以看到该文件的数字串发生了变化,相较之前的数+15了\
//多出来的15是因为前面往那个文件追加了三行test,4个字母乘以3加上三个换行符=15
[root@web01 ~]# cat /tmp/logseek
2930
//手动添加错误信息"Error"测试效果
[root@web01 ~]# echo 'Error' >> /var/log/httpd/error_log
//可以看到输出了1,1代表日志文件里有报错
[root@web01 ~]# /scripts/log.py /var/log/httpd/error_log
1

log.py脚本注释:

作用:检查日志文件中是否有指定的关键字
第一个参数为日志文件名(必须有,相对路径、绝对路径均可)
第二个参数为seek position文件的路径(可选项,若不设置则默认为/tmp/logseek文件。相对路径、绝对路径均可)
第三个参数为搜索关键字,默认为 Error

2.在客户端编辑配置文件

[root@web01 ~]# vim /usr/local/zabbix_agent/etc/zabbix_agentd.conf
UnsafeUserParameters=1
UserParameter=check_process[*],/bin/bash /scripts/check_process.sh $1	//这条是进程监控,不用管
UserParameter=check_log[*],/scripts/log.py $1 $2 $3		//添加这一条日志监控

//重启agent,生效配置
[root@web01 ~]# pkill zabbix_agentd
[root@web01 ~]# /usr/local/zabbix_agent/sbin/zabbix_agentd
[root@web01 ~]# ss -anlt
State       Recv-Q      Send-Q            Local Address:Port              Peer Address:Port      Process
LISTEN      0           128                     0.0.0.0:111                    0.0.0.0:*
LISTEN      0           128                     0.0.0.0:22                     0.0.0.0:*
LISTEN      0           128                     0.0.0.0:10050                  0.0.0.0:*
LISTEN      0           128                        [::]:111                       [::]:*
LISTEN      0           128                           *:80                           *:*
LISTEN      0           128                        [::]:22                        [::]:*

//生效配置之后,去Server端测试
//测试之前先做些测试的准备工作
//设置文件权限。因为zabbix服务端访问客户端属于其他,如果\
//文件的其他人没有读的权限,则无法监控该项
[root@web01 ~]# ll /var/log/httpd/error_log
-rw-r--r-- 1 root root 2930 Sep  6 15:30 /var/log/httpd/error_log
[root@web01 ~]# ll -d /var/log/httpd/
drwx------ 2 root root 41 Sep  6 15:10 /var/log/httpd/
[root@web01 ~]# chmod 755 /var/log/httpd/
[root@web01 ~]# ll -d /var/log/httpd/
drwxr-xr-x 2 root root 41 Sep  6 15:10 /var/log/httpd/
//因之前本地测试脚本生成了该文件,该文件的属组是本地的root用户,\
//需本地测试完后删掉,在server执行脚本生成新的文件
[root@web01 ~]# ll /tmp/logseek
-rw-r--r-- 1 root root 4 Sep  6 15:13 /tmp/logseek
[root@web01 ~]# rm -f /tmp/logseek

//Server端测试
[root@zabbix ~]# zabbix_get -s 192.168.92.130 -k check_log['/var/log/httpd/error_log']
1			//会输出1是因为之前测试往httpd的error_log文件追加了‘Error’,前面又把测试的logseek记录检查文件\
			//给删除了,这是执行脚本会生成新的logseek文件,该文件会从头开始,所以检测出‘Error’
//再次执行就不会输出1了,因为再次检测从上次检测的尾部之后开始,故当前error日志没有‘Error’信息
[root@zabbix ~]# zabbix_get -s 192.168.92.130 -k check_log['/var/log/httpd/error_log']
0
//去到agent查看新生成的logseek记录检查文件,可以看到属主是zabbix
[root@web01 ~]# ll /tmp/logseek
-rw-rw-r-- 1 zabbix zabbix 4 Sep  6 15:28 /tmp/logseek

3.在web界面添加监控项

跟添加进程监控的步骤流程一致,只需改变些操作,毕竟是监控不同的对象。

这里就直接给出具体配置的图片,关于该配置界面如何进入可以查看前面的流程监控,相信配置过一遍也记得一些步骤了。

image-20220906160059395

4.在web界面添加触发器

image-20220906160420875

image-20220906160459426

5.触发验证

手动触发告警

[root@web01 ~]# echo 'Error' >> /var/log/httpd/error_log

进入监控栏的仪表板界面查看,发现触发了告警,可以看到邮箱也收到了告警信息。

image-20220906160653865

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值