第一章 监控那些事

我的监控之旅

时光倒回到2004年,在上地环岛的一家做在线教育的公司做linux系统管理员。大概有半个机柜的服务器在亦庄的联通机房托管,全部为1U的设备。时不时去一趟机房做维护,各种证件、证明,登记还挺正规的,个人感觉还是很不错的。突然有一天,所有的服务器都不能访问了,等了好长一段时间,也没有恢复的迹象。打电话给机房,答复说正遭受网络攻击,让等等就好。不确定什么时候恢复,就开几个窗口,用ping 服务器的ip方式进行测试,这应该算是最原始的一种监控手段了。Ping了一整天,也没有恢复。第二天老板让开车去现场看到底怎样?到了现场,机房里一片混乱,不少人都在往外搬服务器;一打听,原来是机房服务商跟基础运营商(联通)闹崩了,联通切断了下联的带宽。没有办法,就跟其他人一样把服务器搬走了。

2005年秋,换了份工作,规模在当时来说比较大,不是半个机柜,而是数百台服务器,用ping的方法来监控服务器是否正常,显然是不合适的,也是不可能做得到的。接手的时候,正好有一台没完工的监控系统netsaint,仅仅是软件安装完成,没有添加监控项。印象很深的是,上司让把服务器ip地址与端口对应起来,以便进行流量监控。可是,因为历史遗留问题,线缆很乱,服务器也没有标识,让人抓狂。
在这里插入图片描述

只好通过登录交换机,获取每个端口的mac地址(去掉级联端口),接着用nmap扫描本网段,得到ip地址与mac相对应的数据,再与交换机获取的mac值进行匹配,从而得到需要的结果。

因为公司主营业务为sp,一旦发生故障,就会短信报警,这给运维工作带来很大的便利,完全扭转了以前那种被动的运维局面。在监控系统未投入使用之前,故障报告来源全靠用户通知,可能只会笼统地说一句“XX服务器好像出问题了”。具体是什么问题?是什么导致的,得花一番功夫去排查,效率远不及监控系统。

后来,netsaint改名为nagios,功能更强大,也更易于使用,我就把netsaint升级为nagios,用了很多年。因nagios的配置,特别是监控对象数量较多的时候,需要手边输入大量的文本行,稍不留意就可能出错,就想着找一个替代方案,从浏览器里输入数据,应该会好一些。Nagios有一些基于web的管理工具,比如nagiosql,但部署起来十分繁琐。 在这里插入图片描述

与nagios的web管理工具相比较,zabbix的部署就要容易很多,于是就用zabbix替换掉nagios。Zabbix的部署难度比较小,能搞定apache + php + mysql 这种组合的,就不会遇到遇到什么障碍,而且基本不需要对zabbix的配置做什么修改或者变更(nagiosql要手动做很多操作)。

个人认为,zabbix有几个地方不是很让我很满意:
 Zabbix的所有监控对象,都存储在mysql数据库,包括其代理工具zabbix_proxy。监控对象越多,服务时间越久,就会使数据库越来越庞大。
 中央服务器启动时,会启动很多进程,有时会影响性能。
 模板过多过滥,不需要的一大堆,需要的可能没有。
 有些项目监控,比较繁琐,比如url监控。

Zabbix用了几年,正因为存在上述一些问题,又想把监控换成非常熟悉的nagios,但又不想用原生的nagios,希望能找到一个易于配置的带web界面的第三方包装版本。想起在某大学,曾见他们用的带web界面的nagios封装版本centreon,这么多年过去了,不知道还有没在继续维护。访问其官网,还在继续发布新版呢,二话不说,拿来试试,看是否比原生的nagios更易用。

说干就干,从官方网站下载好ISO文件,在虚拟机里一键安装好系统,设置好网络以后,直接就可以从web界面进行监控管理操作。与原生的nagios相比较,centreon是一体集成的工具包,不需要手动安装mysql、php、apache等主键,也不需要逐个对这些组件进行手工配置,升级组件,也仅仅对整个系统执行 yum update操作;添加监控对象,直接在web界面进行,避免原生nagios添加用手工输入容易造成的错误。

通过一段时间的试用,终于把监控系统全部换成了centreon。
在这里插入图片描述

监控的分类

在日常工作中,监控项目大概可以分为:网络与服务监控、流量监控、用户数据监控等。作为系统管理员,在没有开发能力的情况下,最主要的监控就剩网络及服务监控和流量监控了。

流量监控,如果是物理服务器,直接对交换机端口进行监控,cacti是一个比较不错的选择。有些人可能喜欢把流量监控与服务监控用同一个工具,而我通常是独自分开,又因为主要平台为proxmox VE超融合集群的缘故,单独分开仅仅是多了一个虚拟机而已。

网络与服务监控,是监控的重中之重了。它包括主机存活、服务端口存活、服务请求响应、主机资源使用率、逻辑监控等等。具体的监控指标,可以根据业务的情况、使用习惯、业绩考核指标来安排,没有固定的格式存在。

有效监控

可以用来监控的对象可能会很多,但并不是越多越好,反之亦然。项目越多,复杂度就越高。有些项目,可能相互之间存在一定的关联,那么通过这种关联关系,就可以减少一定数量的监控项。比如监控linux的内存使用情况,仅需关注交换分区,就可以把内存使用及交换分区的使用一并解决了,因为交换分区如果被占用到一定的数值,那么与之相对应,内存一定是耗尽了的。

监控告警也应该是一个很需要留意的地方,有报警一定要及时处理,不能等闲视之,如果没人理会,监控告警就会成狼来了,起不到任何作用。

经验之谈

监控是运维的常规性工作,是系统管理员的千里眼、顺风耳,有了它,睡觉就要踏实得多。曾经有一阵子在移动机房现场值守,因为信号和网络屏蔽的原因,上不了外网(那时还没有智能手机),无事可干只能在工位上干耗着,连续好几天没收到告警短信,心中暗喜服务器应该没啥事。可是,电话突然响了,里边一顿报批,说有个关键业务挂了几天怎么没人管?我辩解到:“监控没报警啊”!那边老总怒了:“监控服务器是不是死掉了?如果是,当然不报警了”。

有了这个教训以后,我要求做到以下几点:
1、 保证手机有电,并且能有信号。如果遇到没有信号的地方,时不时移动到有信号的地方,保证不漏掉告警信息。
2、 做好监控平台的备份,以便出现不可修复的故障时进行有效的恢复。
3、 早中晚定时登录监控后台,掌握监控系统本身是否正常工作。 在这里插入图片描述

4、 监控权限或告警信息,除了系统管理员二外,只选取与之相关的项目发生给相关人员,能不发的尽量不发。
5、 运维人员一定要先有其它部门人员知道故障发生,并评估其必要性,是否通知其它部门的人员。
6、 Centreon监控服务器尽量不要与被监控的主机在同一网段,有条件的话,最好放在不同的物理位置。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

4/5$全真龙门

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值