一大早收到告警信息,发现有几台服务器的zabbix_agent均无法访问一段时间又恢复了。到了公司赶忙到服务器上一查究竟。排查中发现大量的io wait 磁盘使用率爆满。
使用命令查看磁盘IO
iostat -x 2
iotop 查看如下,果然是mysql的线程产生的大量IO
查看监控
队列已经不少了
大量的IO堵塞导致agent推送过来的数据长时间无法得到处理,zabbix就认为该agent已经丢失。所以才会出现agent无法访问的告警。
参考一些优化的资料修改zabbix_server.conf 如下
LogFile=/tmp/zabbix_server.log
DBName=zabbix
DBUser=zabbix
DBPassword=wlwx2019
StartPollers=20 //轮训进程数,主动模式减少该值,
StartTrappers=150 //处理agent推送数据的