运维岗位历史悠久
提到运维很多人可能想到 IT 系统的运维,其实运维岗位不仅仅最近几十年才有的工作岗位,大多运维的理念都来自人类医疗界,只不过医生是对人体这个超级复杂系统做运维,运维工程师运维的是 IT 系统而已。医生通过对生命以及生活的各种观察与衡量来维护生命的正常状态与运行;而运维工程师:通过对系统运行的各种观察与衡量来维护系统的正常状态与运行,如医生通过血常规、尿检等等观测指标再根据历史经验来评估一个人的身体状态,运维人员通过系统性能指标 KPI 变化、系统日志的根据经验找因果关系来定界定位故障;再如医生通过 X 射线拍 CT、拍胸片来透视人体进一步观测人体细微变化来推断病因,而运维工程师则会把故障单元 suspend 住,放诊断器进行诊断,扫描内存堆栈等故障现场信息推到出故障根因等等,很多运维理念来至医学界。伴随科技的发展医疗诊断手段在不断演进,与医疗界一样运维也有其发展历程。
IT 运维的发展历程
事物的发展不是孤立的,运维也不例外,它与业界的整个技术趋势发展是相辅相成的。这就要求我们关注运维的同时,也要关注整个技术趋势和背景来说运维发展历程;从不同维度对系统运维历程进行总结,如按人工干预程度维度可把运维发展粗略分为:手动运维->自动运维->DevOps->智能运维;其中在运维发展的过程中,最早出现的是手工运维;在大量的自动化脚本产生后,就有了自动化的运维;后来随着微服务、容器技术兴起又出现了 DevOps;最近一两年随数据积累、计算机算力提升又出现智能运维。本文重点从另外一种维度运维技术和人工干预细粒度划分运维历程:
运维技术演进路径解析
阶段一:人工运维时代(系统管理员主导)
在信息化初期,IT系统规模较小且架构简单,运维工作高度依赖人工操作。这一阶段的问题主要集中在硬件故障、网络异常及基础系统维护,具备操作系统或网络基础知识的系统管理员(SA)即可胜任。随着业务规模扩张,企业不得不招聘更多SA应对激增的事件量,导致人力成本快速攀升。此时的运维模式呈现典型特征:
- 技能门槛低:以操作系统命令行操作为核心能力
- 被动响应式:故障处理滞后于问题发生
- 成本敏感:人均运维效率制约规模化发展
阶段二:脚本工具化阶段
面对重复性操作的成本压力,企业自然将目光投向自动化解决方案。这一阶段的技术演进呈现三个显著特征:
- 工具载体演进:从Shell脚本到Perl/Ruby/Python等高级动态语言
- 应用场景扩展:涵盖批量部署、日志分析、简单监控告警等场景
- 效率提升维度:将平均故障响应时间缩短60%-80%
典型案例如早期互联网公司的批量服务器启停脚本、数据库备份工具等。此阶段对运维人员的要求转变为:
- 掌握至少一门脚本语言编程能力
- 具备基础算法思维(如循环/条件判断)
- 能够编写可维护的代码库
阶段三:流程标准化阶段
随着业务复杂度呈指数级增长,单纯脚本已经无法满足需求。这一阶段的技术变革体现在:
- 运维范畴扩展:从硬件维护延伸到应用部署、服务编排、变更管理等全生命周期
- 流程规范要求:电信行业尤甚,需符合ISO 20000等IT服务管理标准
- 平台化趋势初现:将离散脚本封装为功能模块,构建服务目录(Service Catalog)
典型案例包括金融行业核心系统变更流程管理平台,通过可视化工作流引擎实现:
- 多节点任务编排(安装OS→配置网络→部署中间件→应用发布)
- 执行结果自动校验机制
- 操作回滚功能集成
阶段四:平台化自动化运维阶段
云计算的普及催生了运维模式的质变,此阶段呈现三大技术特征:
- 体系化架构:构建包含CMDB(配置管理数据库)、监控中心、自动化平台的完整生态
- 智能化工具链:如腾讯蓝鲸PaaS平台实现百万级服务器纳管,支持分钟级故障定位
- 行业定制化发展:电商领域侧重高并发支撑(如双11流量洪峰),游戏行业注重弹性伸缩
技术价值体现在:
- 故障MTTR(平均修复时间)从小时级降至分钟级
- 运维成本下降30%-50%(数据来源:Gartner 2020运维成本研究报告)
- 人才结构转型:传统SA占比下降至30%,DevOps工程师占比提升至45%
阶段五:AIOps智能运维阶段
在机器学习与算力突破的双重驱动下,AIOps正在重构运维范式:
- 数据驱动决策:构建包含20+数据源(日志/指标/拓扑/工单)的运维知识图谱
- 预测性分析:基于历史数据进行容量预测(如磁盘IOPS趋势分析)、故障预判(如磁盘SMART指标异常检测)
- 自主化运维:实现智能扩缩容(如AWS Auto Scaling)、自愈策略(如自动重启失败的进程)
当前实践表明:
- 头部企业故障发现效率提升40%
- 日志分析耗时减少70%
- 安全事件响应速度达秒级(参考蚂蚁集团智能风控案例)
技术挑战包括:
- 数据质量参差不齐(如日志缺失率高达15%)
- 算法黑箱导致的可解释性不足
- 技术栈整合复杂性(需对接Prometheus/Grafana等监控体系)
未来演进方向展望
运维发展的终极形态将呈现三个显著特征:
- 自主化运维体系:实现95%以上常规操作无人干预(参照SpaceX星舰机器人维修系统设计理念)
- 数字孪生映射:构建物理基础设施的虚拟镜像,实现变更影响预演
- 量子计算赋能:利用量子算法优化分布式系统调度策略(实验性研究已在Google SRE团队开展)