一、前言
现代企业的运维工作主要分两个部分:技术与管理。技术是发现、处理故障,保障各个IT资源的正常运行;管理则是如何分配资源和人力,优化流程,尽快恢复业务的正常运转,以及对存在的故障隐患未雨绸缪。那究竟什么样的运维平台才能满足现代企业运维工作的需求,能被称之为自动、智能的运维平台呢?个人认为,一个自动化的智能运维平台需要包括以下几点:
1. 完备的监控
所谓完备的监控,不只是针对设备细化到进程、端口的监控,而是需要以保证业务正常、稳定运转为目标,从系统视角进行监控,并能对业务系统的各个组成部分(负载均衡、WEB集群、中间件、数据库)有详细的监控和分析。一旦业务系统出现问题,可以定位到是哪个支撑服务影响了业务系统,从而针对性的处理故障,保证业务迅速恢复正常。
2. 批量运维、统一管理的工具
对于现代企业愈加庞大的IT资源规模和日益复杂的业务系统,需要运维平台能对同类IT资源提供最简便、统一的操作,将运维人员从安装、部署的枯燥工作中解脱,去从事更有价值的事情。
3. 人性化的页面呈现
在企业中,各个运维人员的工作经验参差不齐,对于机房这类层面的运维工作,对运维水平有着较高的要求。如果能通过运维平台对机房环境有可视化的真实呈现,将会大大减小不同水平运维人员的认知偏差,提高企业对人力资源的利用率。
4. 日志集中分析
随着服务器的增多,日志的分析定位也成为一个难