你真的知道运维是干嘛的吗？

漠效

已于 2024-12-02 13:03:18 修改

阅读量5.8k

点赞数 6

文章标签：运维

于 2023-05-06 17:02:20 首次发布

本文链接：https://blog.csdn.net/GX_1_11_real/article/details/130303132

版权

前言

如果你是一个好奇的读者、或者是互联网相关的工作人员、或者你本身是一个从事于互联网的运维或IT人员本身，但是你自己真的知道运维具体是干嘛的吗？

从我潜水各个运维和IT的微信群里多年观察到的现象来看，岗位虽然都是运维，但是技术栈、技能水平和工资待遇都是属于多样化的(水平，能力，工资的关联性也没有很强，其中的关联性既不一定是正向趋势，也不一定是负向趋势，也就是说千奇百怪)
并且日常的聊天和解惑中，能看出其中大多数的人是存在着明显的所谓知识的诅咒的现象，或者说存在局限性。由于其自身的认知能力和经验等因素，反而无法去理解其他人与自己不同的业务或具体情况。也就是或大家对运维岗位或者职能的了解，只是限于自身当前的工作内容。也就是说A既做办公室网络和设备又做云服务，岗位名称是运维工程师，他会认为运维工作即是如此。B既做服务器维护又做网站架构，项目部署，岗位名称是运维工程师，他也会认为运维工作是这样。就像盲人摸象，说什么好像都对，又什么都不对。

因此又是心血来潮的一篇科普性的文章，总结一下到底运维是干嘛的？有多少分类？

(此处就不包括其他的非互联网行业中的运维岗位了。因为每行每业都有维护人员，他们的工种有的也被称为运维<水电运维，风电运维，交通运输运维等>，有的是叫其他名称，但是基本是属于设施设备或某设施系统<基础设施,公共设施,能源设施,排水通风系统等>的维护，由于此文谈论的是互联网行业中包含的运维类型，就不包括上述岗位了。)

运维基本能力

通常运维人员需要具备(包括但不限于)以下基本技能和知识：

1.系统管理

熟悉Linux/Unix操作系统；
掌握服务器硬件设备、网络设备的基本配置方法和故障排除；

2.数据库管理
熟悉主流数据库（如MySQL、Oracle、SQL Server等）的安装、配置、备份、恢复和性能调优等基本操作；
具备一定的SQL语言编写能力；

3.网络管理
能够诊断网络故障和优化网络性能；
熟悉TCP/IP协议，有网络防火墙和VPN的实施经验；

4.安全管理
熟悉常见的安全漏洞，掌握安全防范和应对技巧；
能够制定和执行网络安全策略，保障信息系统安全；

5.脚本编程
熟练使用至少一种脚本语言（如Shell、Python等）进行自动化运维；
对于复杂的任务，需要能够开发脚本或工具进行自动化处理；

6.监控与分析
能够掌握各种监控工具，如Nagios、Zabbix等，并能够熟练配置、维护和使用；
能够分析监控数据并及时发现异常问题；

7.团队合作和沟通能力
运维人员需要与开发、测试等部门密切合作，能够良好地沟通和协调；
具有快速学习和解决问题的能力。

以上即是运维人员需要具备的基本技能，除了第7条是必备的，其他的通常也对应着不同的发展方向，大致掌握1到3种，熟悉其他几项，基本就适用于参与运维工作，当然还有其他专业知识需要不断学习和提高。随着实际工作的不断深入和分化，处于不同环境的运维工程师会迅速特化出不同的形态和能力，例如：南北极的会吹冷风，火山地带的会喷火。

运维岗位分类

按照职责划分

系统运维：主要负责服务器硬件设备、操作系统、网络设备等的管理和维护；

数据库运维：主要负责数据库的安装、配置、备份、恢复、性能优化等工作；

应用运维：主要负责应用软件的安装、部署、更新、监控和故障处理等工作；

安全运维：主要负责网络安全、信息安全、数据安全等方面的保障和防范；

按照服务类型划分

网站运维：主要负责网站服务器的管理和维护，包括Web服务器、数据库服务器等；

应用程序运维：主要负责应用程序的安装、部署、更新、监控和故障处理等工作；

数据库运维：主要负责数据库的安装、配置、备份、恢复、性能优化等工作；

云计算运维：主要负责云计算平台的管理和维护，包括基础设施、应用程序等；

按照运维模式划分

自动化运维：主要采用脚本、工具等方式进行自动化处理；

DevOps运维：主要关注如何将开发和运维紧密结合，实现快速交付和持续改进；

Site Reliability Engineering (SRE)：是一种强调可靠性的运维模式，主张通过监控和预测来预防和解决系统故障；基础设施设计和构建；自动化运维；监控和报警；故障模拟和恢复

按照工作模式划分

7*24小时运维：需要在全天候不间断地保障系统稳定运行；

值班制运维：通过轮班值班来保障系统稳定运行；

班次制运维：通过规定工作时间来保障系统稳定运行；

按照管理层级划分

初级运维：负责日常例行操作和简单故障处理；

中级运维：负责日常维护、监控和故障排除，并带领初级运维；

高级运维：负责系统设计、性能调优、容灾备份等高级技术工作，并带领中级和初级运维；

按照技术方向划分

网络运维：负责网络设备的配置、维护和故障排除等工作；

安全运维：负责信息安全、网络安全、数据安全等方面的保障和防范；

数据库运维：负责数据库的安装、配置、备份、恢复、性能优化等工作；

大数据运维：负责大数据平台的管理和维护，包括Hadoop、Spark等技术；

云计算运维：负责云计算平台的管理和维护，包括基础设施、应用程序等；

按照服务对象划分

IT系统运维：负责企业内部IT系统的管理和维护；

SaaS运维：负责SaaS应用平台的管理和维护，包括基础设施、应用程序等；

PaaS运维：负责PaaS平台的管理和维护，包括应用开发、运行环境等；

按照工作内容划分

监控运维：主要负责监控系统运行状态、性能、安全等方面；

自动化运维：主要采用脚本、自动化工具等方式进行自动化处理；

故障排除与恢复：主要负责故障排查和恢复，以保障系统稳定运行；

容灾备份：主要负责实现故障容错和数据备份，以保障系统高可用性；

按照服务形式划分

现场运维：需要到客户现场进行服务支持；

远程运维：通过远程方式进行服务支持；

混合运维：结合现场、远程等多种方式进行运维支持；

按照业务类型划分

电商运维:主要负责电子商务平台的管理和维护，包括以下方面：
前端网站开发：负责电商网站前端交互和展示效果；
后台系统开发：负责电商平台后台管理系统的开发和维护；
营销推广：负责电商平台的市场营销和推广，以增加用户流量；
订单处理：负责电商平台的订单处理、物流管理等工作；

金融运维:主要负责金融行业相关的系统管理和维护，包括以下方面：
数据安全：保障金融信息系统的数据安全性；
交易处理：负责金融交易系统的管理和维护；
风险控制：通过风控、监控等手段进行风险控制；
营销推广：负责金融产品的市场营销和推广；

游戏运维:主要负责游戏服务器的管理和维护，包括以下方面：
游戏服务器管理：保障游戏服务器的稳定性和安全性；
游戏后台管理：负责游戏后台管理系统的开发和维护；
用户支持：解决用户在游戏中遇到的问题；
游戏推广：负责游戏产品的市场营销和推广；

按照技术栈划分

Linux运维:主要负责Linux系统的管理和维护，包括以下方面：
Linux系统安装、配置、升级；
常用服务的配置和管理，例如Nginx、MySQL等；
Shell脚本编写和常用命令的使用；
系统监控、性能优化和故障处理等

Windows运维:主要负责Windows系统的管理和维护，包括以下方面：
Windows系统安装、配置、升级；
AD域的创建和管理；
Exchange邮件服务器的配置和管理；
系统监控、性能优化和故障处理等。

网络安全运维:主要负责网络安全方面的工作，包括以下方面：
安全策略和规范的制定和实施；
网络设备的安全配置和管理；
防火墙、入侵检测系统（IDS）、安全信息与事件管理系统（SIEM）等设备的管理和维护；
渗透测试、漏洞扫描等安全评估工作。

DevOps运维:主要负责将开发和运维紧密结合起来，通过互相学习和合作来实现快速交付和持续改进，包括以下方面：
持续集成与持续交付；
自动化部署、测试和监控；
故障排查与恢复；
基础设施即代码等。

中间件运维：主要负责支持业务系统的中间件设施的管理和维护，包括以下方面：
中间件安装和配置；
中间件运行状态的监控；
故障排除和恢复；
中间件性能优化。

容器化运维:在服务器或云计算基础设施上使用Docker、Kubernetes等容器技术进行应用程序管理和部署的运维方式，主要包括以下方面：
容器化应用程序的构建和管理；
容器编排平台的构建和管理；
容器镜像仓库的管理；
应用程序监控和日志管理。

按照团队规模划分

个人运维:只有一个人从事运维工作，主要负责以下方面：
硬件设备采购、配置和管理；
操作系统安装与配置；
常用软件的安装和配置；
网络配置和故障排查等。

小型团队运维:由少量人员组成的运维团队，主要负责以下方面：
多台服务器的管理和维护；
服务端应用程序的部署和维护；
数据库管理和备份；
系统监控和性能优化等。

中型团队运维:由较多人员组成的运维团队，主要负责以下方面：
大型分布式系统的管理和维护；
自动化运维平台的开发和维护；
高可用架构设计和实现；
容灾备份和恢复等。

大型团队运维:由数十人甚至上百人组成的运维团队，主要负责以下方面：
跨数据中心的高可用架构设计和实现；
大规模数据中心的管理和维护；
自动化运维平台的优化和升级；
云计算、容器等新技术的落地和应用。

像是这个分类只与人数有关，工作内容的界限没有那么明显，10个人也能对外或对内自称大型团队运维。

按照工作地点划分

本地运维：在企业内部进行运维工作，主要负责以下方面：
硬件设备采购、配置和管理；
操作系统安装与配置；
常用软件的安装和配置；
网络配置和故障排查等。

远程运维：通过远程方式进行运维工作，主要负责以下方面：
远程服务器的管理和维护；
应用程序的部署和维护；
数据库管理和备份；
系统监控和性能优化等。

境外运维：在国外开展运维工作，主要负责以下方面：
国外服务器的管理和维护；
国外用户的技术支持；
跨国数据中心的管理和维护；
全球网络拓扑的设计和实现等。

外包/驻场运维：外派到其他企业，替其他企业进行维护，主要负责以下方面：
服务器的管理和维护；
应用程序的部署和维护；
数据库管理和备份；
系统监控和性能优化等。

IDC／服务器运维：在IDC机房进行运维工作，主要负责以下方面：
IDC机房IT基础设施部署与维护；
服务器，机房设备等的管理和维护；
为客户提供技术支持，以及机房管理工作；

按照工作内容等级及时间分配划分

一线运维：直接面向用户或系统的工作，需要及时响应处理各种请求。现场支持，解决用户现场遇到的问题；值班监控，对系统和应用程序进行实时监控和处理；故障排查与恢复，对系统故障进行定位和处理，保障系统稳定运行；

二线运维：更深入的技术支持工作，需要在现场运维人员处理不了的问题上提供帮助。技术支持，通过电话、邮件等途径为客户解决技术问题；资源管理，负责服务器、数据库等资源的配置、管理和优化；系统设计与规划，参与系统架构设计、规划等高级工作；

三线运维：更高层次的技术支持工作，需要对整个系统进行优化和改进。高级故障处理，对系统极端情况下的故障进行深度分析和处理；性能优化，对系统性能进行深入分析和优化；
容灾备份及恢复，负责制定容灾计划并实现备份、恢复等工作。

当然还有其他说不出名称或企业自创的运维方面的岗位的没总结出来。像运维经理，运维总监，运维部长，运维主管这一类的管理岗位名称也没有总结，因为各个公司可能有也可能没有这个岗位，并且工作职责也并不统一。其常出现在一个团队中，当然由于职称的滥用，只有一个运维的岗位未必不能叫做运维经理。

如果还有其他没统计的，大家评论区可晒出，看看还有什么冷僻的岗位名称？

疑问

分类这么多的原因？

以上这些运维工作的共同点是都需要保证系统的稳定性和可靠性，并且要保证业务不中断。因此可以看出运维工作的本质是维护稳定，保证可靠。不同的技术只是手段，本质即是要实现稳定的目标。既然本质相同为什么会产生这么多的分类，为什么在实际工作中的内容和岗位名称不符呢？

<1>分类方式不同：由于业务性质，使运维分类方式是根据不同的标准进行划分，如根据技术栈、业务类型、团队规模、工作地点等。

<2>工作内容不同：不同的运维类型需要掌握不同的技能和知识，主要负责不同的工作内容，如硬件设备管理、操作系统安装和配置、应用程序部署和管理、基础设施设计和构建、自动化运维、故障排除和恢复、中间件设施管理、容器化应用程序管理等。

<3>意义不同：每种运维类型都有其独特的意义，根据不同的名称，体系岗位的工作内容。
例如DevOps运维更注重将开发和运维整合起来实现快速交付和持续改进，SRE运维更强调将软件工程方法应用到运维领域提高系统稳定性和可靠性，中间件运维更注重支持业务系统的中间件设施管理和维护，容器化运维更注重在云计算基础设施上使用容器技术进行应用程序管理和部署。

<4>公司不同：由于公司不同，公司的专业度不同，公司对技术或者其他需求不同，为了区分不同职能或者不同工作范围中的工作人员的能力，也创造出了不同的工作岗位名称，便于自己区分或划分等级或创造新名词来提高知名度。

<5>职称滥用：部分公司本身并不了解具体的划分，随意使用岗位名称和描述词，造成奇葩岗位的产生，工作职能和岗位名称的不匹配。例如：某些创业型公司招聘仅维护小程序和云服务的，工资是实习或者普低水平，岗位填写却是架构师，最后导致只有1-3年工作经验的架构师的产生，初始岗位职位就是架构师，但能力却未必能等同于外界真实的架构师水平，例如有名的那个谁；或者是有的运维开发岗位需求却只是能写自动化脚本。这种情况就会产生职位是高级职称，但其本人能力却是低于该职业普通水准的现象。

还有部分公司故意混乱岗位和职责划分，节省成本和避免招聘泄露公司架构，工作内容上和岗位上写入大量不实信息。使实际工作中称为这一岗位，却承担不同的工作内容，在实际中要承担更多。例如：岗位名称为云计算工程师，却包含办公室网络和硬件设备的网工工作或出差类实施或桌面或运营以及其他。毕竟企业目的总是要开源节流，能省则省。虽然这种情况一般很难招到人和留住人，通常每年换工作的大部分的也是这种当前环境有问题的、刚毕业的、谋求更大发展的。但是特殊情况下，还是会有走投无路？的人去做的，人口红利目前还比较多的。不管需求多奇葩，总有绿豆喂王八。而这种情况就会产生职称低级，没有升级过职称，但是干的却是相当杂，什么都得会一些的情况。

一个运维可以做其他运维名称的工作吗？

在某些情况下，一个运维人员可以干其他运维名称的工作。因为大多数的运维工作有着相同点和重合的技能需求。例如：基础设施管理和维护，自动化运维，故障排除和恢复等。虽然技术栈可能和以往的工作经验不符合，但是运维和其他IT行业的专业类似，都是处于不断学习的状态，并且随着时间累积经验。就像宝可梦一样，随着不同的环境，特化出不同的形态。但是实际上去做什么工作，更多的还是成了看企业需求和时机。

对于企业来说，通常招聘写的内容与实际也不一定是100%符合的，并且岗位名称也不一定对应工作内容。虽然企业想找一些有对口经验的，但是他们大多都知道不同的企业有不同的环境，不同环境出来的宝可梦技能不同，因此在考核的时候，通过对经验匹配度和对求职者个人未来能力的预期，招人成本，来选择人员，在成长值高或者现有经验对口中来取舍。但是大部分公司没有成本或者不舍得通过付出成本去预期一个人的成长性，因此选择的时候，年龄和学历成为了判断未来成长值的证明。
至于人员自身是否有行业影响力，由于大部分的人通常都不会有，所以企业通常也不作考虑。如果人员真的有影响力，例如是个自媒体或者B站up主，情况反而会变得复杂。部分企业会出现忧虑，会不会泄密，会不会由于公司环境或者什么争端，对公司造成不好的影响。部分企业会很高兴,可以做出宣传或者借用该人员的影响力。还有部分企业，由于有类似情况的员工，成了类似不在乎的情况。这些不同的结果，主要是取决于公司的规模，能力和人员的影响力的大小。金字塔顶端就那部分人，而大部分人都是下面的，因此对于大多数要在别人手底下工作的人，影响力这种东西藏比不藏，要利大于弊。所以经常能看见做自媒体或者UP主的被发现了不是离职就是被离职，要么网上那些发教程的从来不报工作单位或者是只报前职位。

因此虽然可以干其他运维名称的工作，但是不同类型的运维还是有其独特的工作内容和技能要求的，因此建议运维人员在实际工作中尽量专注于自己擅长的领域，并适当拓展自己的知识和技能，以应对不同的工作任务。至于要不要去做其他，需要看需求和时机。
就疫情这几年这种类似的情况，各种业务包括互联网业务都在收缩，即使是觉的公司环境不合适的工作人员，也不会轻易的更换工作，反而在内卷的保工作，而缺乏流动性这就造成是招聘市场的寒冬。因此在这种情况下，如果是学历或者年龄有瑕疵，比如学历低或年龄较大，没有骑驴找马，建议不要更换，并且在这种时机离场的人会很难找机会入场。

ps:
写完了然后冷静了，突然又感觉写文没有意义了。写这个文感觉有点像，向患者或普通人科普医生的具体分工，但是该瞎找医生的还是会找错医生，该乱用名称还是会乱用，这些不算乱象的潜规则基本是属于常态了，也就是说混乱和定义不明确。运维到底是干嘛的，也许只有科普的时候才会被人提起，行业内的都不一定明白对方是干嘛的，至于行业外的人，也始终只会秉承一个简单的道理，有病就找医生，医生都可治病，而不去看对应的科室，对应的医生。