zabbix_agent2主动模式采坑

背景

生产环境几年前部署的zabbix使用了当时的最新版4.4,后续一直没更新,本身结构也不合理;年初进行了规划,并重新选型,选择了6.0LTS版本在测试验证后,生产部署(版本6.0.13);
部署完成后,批量主机添加完出现zabbix不规律断连情况。
补充本地环境中的zabbix_agent配置如下:

PidFile=/run/zabbix/zabbix_agent2.pid
LogFile=/var/log/zabbix/zabbix_agent2.log
LogFileSize=1
DebugLevel=4
ServerActive=x.x.x.x
Hostname=x-x-x
HostMetadataItem=system.uname
Include=/etc/zabbix/zabbix_agent2.d/*.conf
PluginSocket=/run/zabbix/agent.plugin.sock
UnsafeUserParameters=1
ControlSocket=/run/zabbix/agent.sock
Plugins.SystemRun.LogRemoteCommands=1
Include=./zabbix_agent2.d/plugins.d/*.conf

排查思路

排查agent和Server数据一致性

调整zabbix_agent2日志级别(默认为3,调整为4或5均可),针对本次问题判断都可以给出基本结论

### Option: DebugLevel
#       Specifies debug level:
#       0 - basic information about starting and stopping of Zabbix processes
#       1 - critical information
#       2 - error information
#       3 - warnings
#       4 - for debugging (produces lots of information)
#       5 - extended debugging (produces even more information)
#
# Mandatory: no
# Range: 0-5
# Default:
# DebugLevel=3
DebugLevel=4

重启服务,并打印zabbix_agent2的日志 tail -F /var/log/zabbix/zabbix_agent2.log| grep --line-buffered agent.ping参数已优化,可以结合实际情况修改路径即可

2023/12/21 19:25:39.001569 executing exporter task for itemid:65989 key 'agent.ping'
2023/12/21 19:25:39.001600 executed exporter task for itemid:65989 key 'agent.ping'
2023/12/21 19:25:44.000921 executing exporter task for itemid:65989 key 'agent.ping'
2023/12/21 19:25:44.000928 executed exporter task for itemid:65989 key 'agent.ping'
2023/12/21 19:25:45.065455 [101] adding new request for key: 'agent.ping'
2023/12/21 19:25:49.000975 executing exporter task for itemid:65989 key 'agent.ping'
2023/12/21 19:25:49.000984 executed exporter task for itemid:65989 key 'agent.ping'

web界面搜索主机(关键字)→最新数据→找到agent.ping→选择时间→选择值→纯文字
在这里插入图片描述
两部分日志都有了,拿出来进行分析(本人结合wps,计算两项的时间差)完全一一对应,因此初步结论在agnet端

其他各种努力

github查只有一个有相关,但是又没有结论
又去准备抓包确认,结果抓到的内容不是明文,基本没有帮助(看包大小基本印证前面结论,问题应该是在客户端,客户端没有发出去);
最后冷静下梳理思路,准备进行以下两种尝试:

升级agent版本到6.0.25(当前6.0LTS的最新稳定版)

去官网下载版本,更换版本,再次验证,打印的日志完全符合预期,最后将针对模板的无效修改恢复,针对agent配置的无效修改恢复,只保留需要的配置信息,详见背景内容。

调整该监控指标为被动模式

由于上一个方案生效,该方案未进行实践

至此本次问题终于解决

后续补充

本来以为完全解决了,频繁全量断连的问题确实解决了,但是又出现了一个新的问题,部分主机上报数据非常规律,5秒钟一次(nodata是15秒告警),但是时间老是和当前时间有差异,同时还没有报时间差的告警(时间差超过60秒告警),最后怀疑是时间同步的问题

优化思路

仔细分析了两个指标对localtime有依赖,当agent时间慢于server15秒就会出现存活检测告警,然后收到数据恢复,但是由于时间超过15秒又告警的情况,并且时间差阀值相对比较大,还没有提前预警,从而就会造成干扰,导致对于存活检测指标无法保证灵敏度

主动模式又非常依赖localtime,因此切换思路,将存活检测指标调整为被动模式(从server或proxy直接获取检测)

调整模板中agent.ping指标为被动模式后,该问题解决,也将时间差对于存活检测的依赖解耦

  • 7
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Qwier

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值