一、报警
在zabbix的使用中,最重要的一点就是完善的报警机制,作为监控平台,需要时刻关注机器和服务的运行状态,更重要的是发现故障之后需要及时的报警给相关人员,早点发现问题,将隐患消除在未然阶段。这样才能保证服务的稳定运行。
报警的方式是多种多样的,微信、短信和邮件报警是我们比较常见的方式。而且报警的频率和策略直接影响着运维人员的重视程度和检错效率。如果整个报警列表中都是一些无关痛痒的提示、轻度警告。而他们的发送频率又特别的高,则非常容易错过真正关键的报警。
报警涉及的触发器(trigger)一般包括以下几个方面:
(1)服务器的基本状态:磁盘容量、内存大小、cpu的负载;
(2)基础服务状态:web服务器(nginx、apache)的状态,数据库的状态(mysql、oracle、nosql等);
(3)应用服务器状态:应用服务器的可用性以及负载状态;
以本人之前所在的游戏公司为例,日常的监控报警中主要集中在服务器的基本状态的报警:(1)比如随着服务器的运行,会产生大量的日志文件,因为来不及转移导致服务器的磁盘可用空间不足;(2)开启的应用过多导致cpu和内存的不足;
第一种磁盘不足的情况,可以采用crontab定期清理日志的方式解决,注意
为了防止日志内容的丢失,需要把日志及时的备份到远程的日志服务器中进行存放;
第二种情况则需要定期对服务器进行升配操作;
而基础服务状态和应用服务器状态则需要提高报警级别,毕竟服务的不可用是非常严重的事故,另外给出建议是关键的服务一定要做到高可用,不能因为节约成本而导致服务故障,否则造成的损失也许更加巨大。
1、设置网关
[root@foundation50 ~]# iptables -t nat -I POSTROUTING -s 172.25.50.0/24 -j MASQUERADE
2、文件配置
[root@localhost zabbix]# pwd
/etc/zabbix
[root@localhost zabbix]# ls
web zabbix_java_gateway.conf zabbix_server.conf
zabbix_agentd.conf zabbix_java_gateway_logback.xml
zabbix_agentd.d zabbix_proxy.conf
[root@localhost zabbix]# route -n
Kernel IP routing table
Destination Gateway Genmask Flags Metric Ref Use Iface
172.25.50.0 0.0.0.0 255.255.255.0 U 100 0 0 eth0
[root@localhost zabbix]# route add default gw 172.25.50.250
[root@localhost zabbix]# route -n
Kernel IP routing table