说明:设备缺乏统一网管,需要一台一台登录查看报警,没法及时排查故障隐患,因此需要在网络中部署一台centos服务器并安装zabbix网管软件实现自动化网络监控报警功能。
Zabbix是什么?
zabbix是一个基于Web 界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。
zabbix能监视各种网络参数,保证服务器系统的安全运营;并提供灵活的通知机制以让系统管理员快速定位/解决存在的各种问题。
zabbix由两部分构成,zabbix server(端口:10051)与可选组件zabbix agent(端口:10050)。通过C/S模式采集数据,通过B/S模式在Web端展示和配置。
zabbix server 可以通过SNMP,zabbix agent,ping,端口监视等方法提供对远程服务器/网络状态的监视,数据收集等功能,它可以运行在Linux等平台上。
zabbix agent需要安装在被监视的目标服务器上,它主要完成对硬件信息或与操作系统有关的内存,CPU等信息的收集。
设备太多,如何可视化自动管理?
如果设备太多,一台一台去看流量和告警,明显不太符合常理,可以用zabbix自带的可视化模板,实现端口流量可视化,具体实现效果如下:
如果设备温度太高,或者CPU和内存使用率过高,也可以实现报警功能,以温度监控为例做一个教程。首先需要能监控到设备的温度,自带模板并不支持华为CE交换机的温度监控,因此需要自行添加监控项。
依次点击配置->模板->创建模板
填入模板名称和所属群组(这里为了方便新建立了一个群组)
接着点击新建监控项
比较关键的是键值和OID值以及更新时间
1.键值是需要本地唯一,该值会作为数据库中唯一的一个数值用来触发报警
2.类型写SNMP代理
3.oid值比较复杂,需要首先去华为官网查看,再手动get到具体的值
如何获取设备温度信息的oid值?
1.到华为官网查询。
https://info.support.huawei.com/info-finder/search-center/zh/enterprise/switches/CE12804-pid-22460500/mib
输入温度后找到实体温度这个对应的oid属性值
2.在centos服务器上使用snmpwalk -v 2c -c community IP OID
这条命令去获取实际底层的硬件信息
可以看到只有2011.5.25.31.1.1.1.1.11.16842753这个oid有具体的温度信息值
到设备上dis device temperature all查看,可以看到对应的current温度一致
因此该oid值监控的是出风口的温度,为43°
我们只需要关注这个信息就行了,另一个入风口的温度为37°,是机房本身产生的温度。
3.将获取到的oid值填入zabbix页面
4.创建触发器,当刚才监控的数值>60则产生报警
最后,可以点击监控->最新数据查看到实时的温度信息,并且可以产生图形
可以查看一周来的温度变化曲线以及平均值,最大值,最小值等信息