zabbix3.2.4自带模板的常用监控使用

zabbix3.2.4自带模板的常用监控使用

如果对运维课程感兴趣,可以在b站上搜索我的账号: 运维实战课程,可以关注我,学习更多免费的运维实战技术视频

以下自带模板都是自动配置的,只是关联上模板即可,触发器键值表达式参数都不用管。

1cpu负载的监控(不能太高,命令uptime):1/5/15分钟的负载情况:使用模板Template OS Linux里的监控项Processor load (1 min average per core) Processor load (5 min average per core) Processor load (15 min average per core)  里的键值:system.cpu.load[percpu,avg1] system.cpu.load[percpu,avg5] 

system.cpu.load[percpu,avg15]

2cpu上下文切换次数cpu Context Switches和cpu中断数cpu Interrupts的监控:(都不能太高)

使用模板:Template OS Linux里的监控项:Context switches per second 和 Interrupts per second里的分别键值system.cpu.switches 和 system.cpu.intr

cpu的上下文切换Context Switches和中断数Interrupts了解  (vmstat命令下的cs和in,是个数)

cpu Context Switches 上下文切换,有时也被称为进程切换(process switch)或任务切换。是一个重要的性能指标。

操作系统可以同时运行多个进程, 然而一颗CPU同时只能执行一项任务,操作系统利用时间片轮转的方式,让用户感觉这些任务正在同时进行。 CPU给每个任务都服务一定的时间, 然后把当前任务的状态保存下来, 在加载下一任务的状态后, 继续服务下一任务。任务的状态保存及再加载, 这段过程就叫做上下文切换。

系统调用也是,每次调用系统函数,我们的代码就会进入内核空间,导致上下文切换,这个是很耗资源,也要尽量避免频繁调用系统函数。上下文切换次数过多表示你的CPU大部分浪费在上下文切换,导致CPU干正经事的时间少了,CPU没有充分利用,是不可取的。

https://www.cnblogs.com/ggjucheng/archive/2012/01/05/2312625.html vmstat系统命令详解

cpu Interrupts中断数:

虽然CPU 一次只能处理一个进程,但只要context switch 足够频繁,我们还是可以感觉CPU 同时在处理多个tasks. 而CPU 根据指令去进行context switch 的过程就叫做Interrupt.

命令查看状态:vmstat     下的cs (上下文切换次数)和in(中断数)

3cpu的利用率监控(都是使用率): CPU Steal TimeCPU softirq time (CPU软中断时间)、CPU interrupt time(CPU中断时间)、CPU nice timeCPU iowait timeCPU system timeCPU user timeCPU idle time

使用Template OS Linux里的监控项:CPU steal timeCPU softirq timeCPU interrupt timeCPU nice timeCPU iowait timeCPU system timeCPU user timeCPU idle time里的分别对应的键值system.cpu.util[,steal]system.cpu.util[,softirq]

system.cpu.util[,interrupt]system.cpu.util[,nice]system.cpu.util[,iowait]

system.cpu.util[,system]system.cpu.util[,user]system.cpu.util[,idle]

主要关注空闲cpu使用率(不能太低),用户态cpu使用率(一般高点),系统态cpu使用率(一般高点)

cpu的CPU Steal Time(cpu的偷时间,不能太高,一般是0%,top里%st或vmstat里st))

如果我们把 CPU steal time 性能指标 类比成 售票的过程, 那么过程就是如下:

  • 0% Steal Time - 现在是礼拜三下午场:售票口正在工作,先处理第一条队伍的电影观众,然后处理第二条,然后第一条,然后第二条,轮流进行。处理的很快,且没有人在等待。
  • 50% Steal Time - 现在是礼拜五晚上: 在队伍中的一个人有一半的时间需要等待另一个在售票口的人完成卖票,而不能立刻买到票。卖票的时间更长了。
  • 100% Steal Time - 现在是礼拜五晚上并且 现金出纳金 坏了:所有人都在等待。

一般的参考标准-如果steal time 超过了10%并且持续了20分钟,那么虚拟机就可能性能下降了

CPU softirq time (CPU软中断时间) (top里si%或vmstat里si

CPU interrupt time(CPU中断时间)   top里hi%或vmstat里hi

CPU nice time用做nice加权的进程分配的用户态cpu时间比(top里ni%)

CPU iowait time当CPU发起读写操作后,需要等着磁盘驱动器将数据读入内存,从而导致CPU 在等待的这一段时间内无事可做,CPU处于这种等待状态的时间由Wait参数来衡量。(top里%wa或vmstat里wa)

CPU system time CPU一共花了多少比例的时间运行在系统态空间或者说是用户进程(top里%sy或vmstat里sy)

CPU user time    CPU一共花了多少比例的时间运行在用户态空间或者说是用户进程(top里%us或vmstat里us)

CPU idle time  CPU处于空闲状态时间比例。一般而言,idel + user + nice 约等于100%(top里%id或vmstat里id)

4监控内存的总的大小和可用大小:

使用Template OS Linux里的监控项:Available memory里的键值:vm.memory.size[available]

5监控swap空间的总的大小和空闲大小:

使用模板Template OS Linux 里面的监控项:Total swap space和Free swap space里面分别对应的键值system.swap.size[,total]system.swap.size[,free]

6监控网卡出口和入口流量(不需触发器)

1)自定义一个模板network,里面自定义监控项1(网卡1入口和出口流量)Incoming network traffic on $1,然后设置键值名为 net.if.in[eth1]和(网卡1入口和出口流量)

2)自定义一个模板network,里面自定义监控项2(网卡2入口和出口流量)Incoming network traffic on $1,然后设置键值名为 net.if.in[eth0]和(网卡2入口和出口流量)

注意:网卡流量监控时,生产环境配置:单位bps比特/秒,乘以倍率8

7监控/分区的总的大小、空闲大小和空闲百分比

自定义一个模板gen_disk,里面自定义监控项:Free disk space on / ,然后设置键值名为:vfs.fs.size[/,free]

8监控/boot分区的总的大小、空闲大小和空闲百分比

自定义一个模板boot_disk,里面自定

义监控项:Free disk space on /boot ,然后设置键值名为:vfs.fs.size[/boot,pfree]

9监控/home分区的总的大小、空闲大小和空闲百分比

自定义一个模板home_disk,里面自定义监控项:Free disk space on /home ,然后设置键值名为:vfs.fs.size[/home,free]

10监控主机是否存活1(主要是是否能ping通,和11检验一下)

使用模板:Template ICMP Ping里面的监控项ICMP lossICMP pingICMP response time里面分别对应的键值icmppingloss(5min中内最小ping丢失20包触发报警)、icmpping(主要,值为0表示ping不通,值为1表示能ping通)、icmppingsec(5min中内平均值响应时间大于0.15触发报警)

11.检查机器是否存活2(和10检验一下)

使用模板:Template App Zabbix Agent 里面的监控项Agent ping里面对应的键值:agent.ping

报警条件:(5min没有连通,报警ping不通了)

13监控机器主机名的变化:

使用模板Template OS Linux里面的监控项Host name和 Host name of zabbix_agentd running里面分别对应的键值:system.hostname和agent.hostname

报警条件:当主机名改变时候分别是上面两种情况

14监控机器最大打开的文件数量(小于1024时候,报警)

使用模板Template OS Linux里面的监控项Maximum number of opened files里面的键值:kernel.maxfiles

报警条件:

15监控机器配置的进程的最大数量

使用模板Template OS Linux里面的监控项 Maximum number of processes里面的键值:kernel.maxproc

报警条件:配置的进程的最大数量非常低时,小于256时候

16监控机器登录的系统用户数量

使用模板Template OS Linux里面的监控项Number of logged in users里面的键值:system.users.num

17监控机器的进程数(最大3000个报警)

1)机器的最大进程数

使用模板Template OS Linux里面的监控项Number of processes里面的键值:proc.num[]

报警条件:机器的最大进程数大于3000时

2)机器上运行的进程数

使用模板Template OS Linux里面的监控项 Number of running processes里面的键值:proc.num[,,run]

报警条件:机器的运行进程数大于50时

17监控机器的某个端口号是否丢失(如检查25端口号存不存在)

使用自定义模板port_monitor自定义监控项port25_monitor里面的键值(zabbix里的) net.tcp.listen[25]

报警条件:当该值为0时候,表示该端口号没有了,说明postfix服务停止了,当该值为1时正常。

18监控机器ssh服务停止的监控

使用模板:Template App SSH Service里面的监控项SSH service is running里面的键值:net.tcp.service[ssh]

报警条件:ssh服务停止时

19监控机器是否重启

使用模板Template OS Linux里面的监控项System uptime里面的键值:system.uptime

报警条件:机器重启时候

20监控机器zabbix_agent(d)的版本是否更改

使用模板Template App Zabbix Agent里面的监控项Version of zabbix_agent(d) running里面的键值:agent.version

报警条件:zabbix_agent(d)的版本更改时候

  • 监控nginx的监控项(模板名Template_Nginx:可能是自定义的模板)

监控项:                  对应键值

Nginx waiting                 nginx[waiting,{$NGINX_STATUS_URL}]

Nginx reading                nginx[reading,{$NGINX_STATUS_URL}]

Nginx active_connections       nginx[active_connections,{$NGINX_STATUS_URL}]

Nginx writing                 nginx[writing,{$NGINX_STATUS_URL}]

Nginx handled_connections/sec   nginx[handled_connections,{$NGINX_STATUS_URL}]

Nginx accepted_connections/sec  nginx[accepted_connections,{$NGINX_STATUS_URL}]

Nginx handled_requests/sec     nginx[handled_requests,{$NGINX_STATUS_URL}]

Number of nginx process        proc.num[nginx]

主要报警条件:nginx进程数是0时

监控项:                              对应键值

MySQL begin operations per second           mysql.status[Com_begin]

 MySQL bytes received per second       mysql.status[Bytes_received]

MySQL bytes sent per second                 mysql.status[Bytes_sent]

MySQL commit operations per second          mysql.status[Com_commit]

MySQL delete operations per second         mysql.status[Com_delete]

MySQL insert operations per second        mysql.status[Com_insert]

MySQL queries per second               mysql.status[Questions]

MySQL rollback operations per second     mysql.status[Com_rollback]

 MySQL select operations per second      mysql.status[Com_select]

MySQL slow queries                      mysql.status[Slow_queries]

MySQL status                              mysql.ping

MySQL update operations per second          mysql.status[Com_update]

MySQL uptime                           mysql.status[Uptime]

MySQL version                           mysql.version

最重要的监控项MySQL status报警条件:mysql down时

action发送邮件内容的配置:(统一就这一个,触发器like任意触发时都以该模板内容发送邮件,内容由各宏变量代替,因为宏变量不同,内容不同,因为不同触发器,所以不同触发器对应的触发器宏变量不同,因此内容不同)

常用模板:

Template ICMP Ping, Template OS Linux, Template SNMP OS Linux

Template App SSH Service, Template ICMP Ping, Template OS Linux, Template SNMP OS Linux, Template_Rmanlog

Template ICMP Ping, Template OS Windows, Template SNMP OS Windows

aliproxy, Tencent_proxy, Zabbix server

port_monitor, Template App MySQL,Template App SSH Service, Template ICMP Ping, Template OS Linux(Template App Zabbix Agent)

Template ICMP Ping, Template OS Windows (Template App Zabbix Agent), Template SNMP OS Windows(Template SNMP Disks, Template SNMP Generic, Template SNMP Interfaces, Template SNMP Processors)

Template SNMP Generic, Template SNMP Interfaces, Template SNMP Processors

如果对运维课程感兴趣,可以在b站上搜索我的账号: 运维实战课程,可以关注我,学习更多免费的运维实战技术视频

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

运维实战课程

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值