在第五章部署的Centreon虽然有了监控的功能,但仅仅只能检测远端主机是否存活,还远远不能满足实际工作的需求。因此,要部署一个适用于真实场景的监控平台,还有一些工作要做。根据以往的经验,我们的关注点包含但不限于:
(1) 监控范围:主机资源监控、服务监控、逻辑监控;
(2) 告警的方式:显示屏、邮件、短信、微信或者钉钉机器人;
(3) 账号分配:系统管理员与其它技术人员权限设定;
(4) 可用性实现:避免单点故障;
(5) 系统备份、恢复及迁移。
确定监控范围
主机资源监控:系统负载(执行系统指令top时,CPU的使用情况)、磁盘空间的使用情况、内存使用率(linux系统,监控交换分区swap即可)、磁盘IO、网络连接数等等。
服务监控:端口存活、进程。
逻辑监控:模拟用户行为,比如java假死,单从端口存活及进程上监控,反应不了真实的情况。这种情况下,写一个页面文件,此文件的功能就去做一个简单的数据库查寻,监控这个页面文件,就可以做整体判断—把应用及数据库的运行情况一并检查了。
告警工具准备
有好多种可以选择的故障告警手段,一般来说,可归类为付费和免费两种。最开始我用的是邮件和短信通道,其中短信通道是需要花钱购买,每条大约收费7分钱。换个多家短信通道,服务质量各不相同,差一点的,通常延