前提:
近期业务做了集群的流量汇总,整体没有问题。后面慢慢优化一些参数项。但是这两天发现,集群流量数据增大,业务正常。
问题:
zabbix和prometheus 监控网卡,流量异常增大,超出限制,每次2分钟,偶尔性触发
看图,这个和7月对比,简介翻了几倍,但是业务没有增长,这就很奇怪了
上面介绍相关截图。
解决:
首先以为业务导致网卡过大加载,导致流量增大,我们使用 ifstat-1.1.tar.gz 工具记录每一秒的网卡速度,记录一晚上再看。
分析上图,虽然流量有超过100M的,但是网卡是能够支撑的。没有zabbix和prometheus显示的那么恐怖。
思考
我和大佬分交流一下。说是zabbix的单位转换,要加8倍,我也是添加了的
嗯。。。。。。。。。。。。。。。。。。。。。正常
大佬建议让我使用snmp监控对比一下,思路不错,可以搞。直接部署上去对比了
分析
snmp对比一下
zabbix的(还是这么高)
snmp的(这个是正常的)
很明显,这是snmp是准确的。但是为什么会这样
结果:
首先,业务正常,服务器正常,现在就是zabbix不正常,怀疑是zabbix的问题
回想一下,在数据量增加前做了什么操作。
之前,我当时增加一批监控指标,因为监控点比较重要,所有设置抓取时间为10s。谁知道这个10s就是罪魁祸首。集群内部机器较多,可能会产生数据积压。
后续
取消关联模板,监控整体流量,确定无虚假流量
调整监控项的抓取指标为:1m 再次关联模板正常