监控错误报警 && Agent 主被动 && Proxy 的代理

最新推荐文章于 2024-07-30 10:44:17 发布

Nancy_Jane

最新推荐文章于 2024-07-30 10:44:17 发布

阅读量1.5k

点赞数

本文链接：https://blog.csdn.net/JaneNancy/article/details/81706790

版权

本文介绍了Zabbix监控平台的报警机制，强调了报警的重要性和设置策略，包括磁盘、内存、CPU和基础服务的报警。同时，讨论了Zabbix Agent的主动和被动模式，解释了两种模式的工作原理，并提供了配置示例。此外，还提到了Zabbix Proxy的使用，以扩展监控能力和提升效率。

摘要由CSDN通过智能技术生成

一、报警
在zabbix的使用中，最重要的一点就是完善的报警机制，作为监控平台，需要时刻关注机器和服务的运行状态，更重要的是发现故障之后需要及时的报警给相关人员，早点发现问题，将隐患消除在未然阶段。这样才能保证服务的稳定运行。

报警的方式是多种多样的，微信、短信和邮件报警是我们比较常见的方式。而且报警的频率和策略直接影响着运维人员的重视程度和检错效率。如果整个报警列表中都是一些无关痛痒的提示、轻度警告。而他们的发送频率又特别的高，则非常容易错过真正关键的报警。
报警涉及的触发器（trigger）一般包括以下几个方面：
（1）服务器的基本状态：磁盘容量、内存大小、cpu的负载；
（2）基础服务状态：web服务器（nginx、apache）的状态，数据库的状态（mysql、oracle、nosql等）；
（3）应用服务器状态：应用服务器的可用性以及负载状态；

以本人之前所在的游戏公司为例，日常的监控报警中主要集中在服务器的基本状态的报警：（1）比如随着服务器的运行，会产生大量的日志文件，因为来不及转移导致服务器的磁盘可用空间不足；（2）开启的应用过多导致cpu和内存的不足；

第一种磁盘不足的情况，可以采用crontab定期清理日志的方式解决，注意
为了防止日志内容的丢失，需要把日志及时的备份到远程的日志服务器中进行存放；

第二种情况则需要定期对服务器进行升配操作；

而基础服务状态和应用服务器状态则需要提高报警级别，毕竟服务的不可用是非常严重的事故，另外给出建议是关键的服务一定要做到高可用，不能因为节约成本而导致服务故障，否则造成的损失也许更加巨大。

1、设置网关

[root@foundation50 ~]# iptables -t nat -I POSTROUTING -s 172.25.50.0/24 -j MASQUERADE

2、文件配置

[root@localhost zabbix]# pwd
/etc/zabbix
[root@localhost zabbix]# ls
web                 zabbix_java_gateway.conf         zabbix_server.conf
zabbix_agentd.conf  zabbix_java_gateway_logback.xml
zabbix_agentd.d     zabbix_proxy.conf
[root@localhost zabbix]# route -n
Kernel IP routing table
Destination     Gateway         Genmask         Flags Metric Ref    Use Iface
172.25.50.0     0.0.0.0         255.255.255.0   U     100    0        0 eth0
[root@localhost zabbix]# route add default gw 172.25.50.250
[root@localhost zabbix]# route -n
Kernel IP routing table