运维解析

最新推荐文章于 2023-06-29 11:11:56 发布

逝去的蛮霸

最新推荐文章于 2023-06-29 11:11:56 发布

阅读量1.1k

点赞数

分类专栏：运维文章标签：运维

本文链接：https://blog.csdn.net/qq_49296785/article/details/108789537

版权

运维专栏收录该内容

1 篇文章 0 订阅

订阅专栏

运维

运维，这里指互联网运维，通常属于技术部门，与研发、测试、系统管理同为互联网产品技术支撑的4大部门，这个划分在国内和国外以及大小公司间都会多少有一些不同。
一个互联网产品的生成一般经历的过程是：产品经理、需求分析、研发部门开发、测试部门测试、运维部门部署发布以及长期的运行维护。
运维，本质上是对网络、服务器、服务的生命周期各个阶段的运营与维护，在成本、稳定性、效率上达成一致可接受的状态。

运维的职责

对于初创公司，运维部和系统部一般是合二为一的，相关工作由同一批人负责，界限可能不是很明显。大型公司对运维工作的要求更高，需要有更精细的分工，因此机房/网络/操作系统相关的底层工作分离出来由专人负责，成为系统管理部，而上层和应用产品相关的工作则由运维负责，成为运维部。以下从互联网产品生命周期和运维涉及的技术分别来看分工较细的大型互联网公司中运维工作的职责。

产品生命周期

运维的职责覆盖了产品从设计到发布、运行维护、变更升级及至下线的生命周期，各个阶段的职责包括：
产品发布前
这个阶段运维工程师的职责是参与设计并把有关运维准入，主要包括：
（1）产品的业务熟悉
（2）产品架构设计的合理性评估，包括是否存在单点，是否可容错，是否有强耦合等，同时需要提供产品设计的合理性建议以使产品能够满足上线发布并稳定运行的基本要求
（3）资源评估，包括所需的服务器资源、网络资源以及资源的分布等，同时把相关产品对资源预算申请的合理性，控制服务成本
（4）资源就位，将申请的服务器及基础环境/域名准备就位。
产品发布
这个阶段运维工程师负责发布的具体工作，将具体的软件和系统/硬件资源整合形成产品并对外提供服务。
对于已在线服务的更新也属于发布范畴，这个时候的产品发布一般要保障在线发布，在不中断对外服务的情况下完成产品的升级。对于大型复杂的变更也存在中止服务部署完成后再重新提供服务的情况，但这种情况需要运维工程师通过尽可能的技术手段来避免。
产品运行维护
这个阶段的主要工作包括：
（1）监控：对服务运行的状态进行实时的监控，随时发现服务的运行异常和资源消耗情况；输出重要的日常服务运行报表以评估服务/业务整体运行状况，发现服务隐患；
（2）故障处理：对服务出现的任何异常进行及时处理，尽可能避免问题的扩大化甚至中止服务。这之前运维工程师需要针对各类服务异常，如机房/网络故障、程序bug等问题制定处理的预案，问题出现时可以自动或手动执行预案达到止损的目的。除了日常小故障外，运维工程师还需要考虑产品不同程度受损情况下的灾难恢复，包括诸如地震等不可抗力导致大规模机房故障、在线产品被删除等对产品造成致命伤害的情况。
容量管理：包括服务规模扩张后的资源评估、扩容、机房迁移、流量调度等规划和具体实施。
产品性能/成本优化
产品对外提供服务最重要的一点是用户体验，用户体验中非常重要的是产品的可用性和响应速度。而如何用最合理的资源（如机器、带宽等）支持产品提供高可用和高速度的用户体验，这也是运维工程师的重要职责。
产品下线
发展良好的互联网产品将始终在线对外提供服务，但互联网产品快速迭代，也存在相当多孵化的产品最后被淘汰的情况，这些产品都需要做下线处理，这个过程运维工程师主要做好资源回收的工作，将机器/网络等资源回收后纳入资源池中供其它服务使用。

运维技术方向

产品的整个生命周期里运维的职责重要而广泛，但运维工程师们的职责不仅限于这部分工作，还需要总结工作中遇到的问题，抽取出相关的技术方向、研发相关的工具和平台以支持/优化业务的发展并提高运维的效率，相关技术工作主要包括：
服务监控技术：包括监控平台的研发、应用，服务监控准确性、实时性、全面性的保障
服务故障管理：包括服务的故障预案设计，预案的自动化执行，故障的总结并反馈到产品/系统的设计层面进行优化以提高产品的稳定性
服务容量管理：测量服务的容量，规划服务的机房建设，扩容、迁移等工作
服务性能优化：从各个方向，包括网络优化、操作系统优化、应用优化、客户端优化等，提高服务的性能和响应速度，改善用户体验
服务全局流量调度：接入服务的流量，根据容量和服务状态在各个机房间分配流量
服务任务调度：服务的各种定时/非定时任务的调度触发及状态监控
服务安全保障：包括服务的访问安全、防攻击、权限控制等
数据传输技术：包括p2p等各类传输技术的研发应用，也远距离大数据传输等问题的解决
服务自动发布部署：部署平台/工具的研发，及平台/工具的使用，做到安全、高效的发布服务
服务集群管理：包括服务的服务器管理、大规模集群管理等
服务成本优化：尽可能降低服务运行使用的资源，降低服务运行成本
数据库管理（DBA）：通过设计、开发和管理高性能数据库集群，使数据库服务更稳定、更高效、更易于管理。
平台化的开发：类docker和google borg平台的开发管理，及服务接入技术
分布式存储平台的开发优化：类google gfs等分布式存储平台的研发及服务接入
等等，凡是关系到服务质量、效率、成本、安全等方面的工作，及涉及到的技术、组件、工具、平台都在运维的技术范畴里。做好每一个技术方向、完成相应的组件、工具、平台研发都能对履行运维职责起到积极的作用，对业务的发展发挥关键影响。

技能和素质

运维以技术为基础，通过技术保障产品提供更高质量的服务。运维工作的职责及在业务中的位置决定了运维工程师需要具备更加广博的知识和深入的技术能力：
扎实的计算机基础知识，包括计算机系统架构，操作系统，网络技术等；
通用应用方面需要了解操作系统、网络、安全，存储，CDN，DB等，知道其相关原理；
编程能力，小到运维工具的开发大到大型运维系统/平台的开发都需要有良好的编程能力；
数据分析能力：能够整理、分析系统运行的各项数据，从中发现问题及找到解决方向；
丰富的系统知识，包括系统工具、典型系统架构、常见的平台选型等；
综合利用工具和平台的能力；
运维工作的复杂性对这个岗位的运维工程师们的软素质也提出了要求：
时间管理能力，特别是碎片化时间的处理能力；
沉稳的心态，面对紧急情况时需要处变不惊；
沟通能力、团队协作，运维工作跨部门、跨工种工作很多，需善于沟通、并且团队协作能力要强；
工作中需胆大心细：胆大才能创新、不走寻常路，特别对于运维这种新的工种，更需创新才能促进发展；心细，运维工程师是最高线上权限者，需要谨慎心细；
主动性、执行力，能够主动学习国际国内的运维技术，并引入到工作中，提高运维的质量和效率；

开展方式

业务运维工程师的日常工作包括：
监控线上的服务质量
响应异常/处理突发故障
在线发布/升级产品
和相应产品线的研发和测试协调处理产品问题
基于工作中的问题和数据分析进行抽取，将运维经验理念落地沉淀为方法论/工具/系统/平台，并制定相关的改进计划，在各个技术方向上落地实现，最终反馈回运维工作中，提高运维本身的效率和产品的价值。

平台工具

运维工程师使用的运维平台和工具包括：
Web服务器：apache、tomcat、nginx、lighttpd
apache：Apache(音译为阿帕奇)是世界使用排名第一的Web服务器软件。它可以运行在几乎所有广泛使用的计算机平台上，由于其跨平台和安全性被广泛使用，是最流行的Web服务器端软件之一。它快速、可靠并且可通过简单的API扩充，将Perl/Python等解释器编译到服务器中。
tomcat：Tomcat是Apache 软件基金会（Apache Software Foundation）的Jakarta 项目中的一个核心项目，由Apache、Sun 和其他一些公司及个人共同开发而成。由于有了Sun 的参与和支持，最新的Servlet 和JSP 规范总是能在Tomcat 中得到体现，Tomcat 5支持最新的Servlet 2.4 和JSP 2.0 规范。因为Tomcat 技术先进、性能稳定，而且免费，因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可，成为目前比较流行的Web 应用服务器。
nginx：Nginx (engine x) 是一个高性能的HTTP和反向代理web服务器，同时也提供了IMAP/POP3/SMTP服务。Nginx是由伊戈尔·赛索耶夫为俄罗斯访问量第二的Rambler.ru站点（俄文：Рамблер）开发的，第一个公开版本0.1.0发布于2004年10月4日。
lighttpd：Lighttpd 是一个德国人领导的开源Web服务器软件，其根本的目的是提供一个专门针对高性能网站，安全、快速、兼容性好并且灵活的web server环境。具有非常低的内存开销、cpu占用率低、效能好以及丰富的模块等特点。
监控：nagios、ganglia、cacti、zabbix
nagios：Nagios是一款开源的免费网络监视工具，能有效监控Windows、Linux和Unix的主机状态，交换机路由器等网络设备，打印机等。在系统或服务状态异常时发出邮件或短信报警第一时间通知网站运维人员，在状态恢复后发出正常的邮件或短信通知。
ganglia：Ganglia是UC Berkeley发起的一个开源集群监视项目，设计用于测量数以千计的节点。Ganglia的核心包含gmond、gmetad以及一个Web前端。主要是用来监控系统性能，如：cpu 、mem、硬盘利用率， I/O负载、网络流量情况等，通过曲线很容易见到每个节点的工作状态，对合理调整、分配系统资源，提高系统整体性能起到重要作用。
cacti：Cacti是一套基于PHP,MySQL,SNMP及RRDTool开发的网络流量监测图形分析工具。
zabbix：zabbix（[`zæbiks]）是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。
自动部署：ansible、sshpt、salt
ansible：ansible是新出现的自动化运维工具，基于Python开发，集合了众多运维工具（puppet、cfengine、chef、func、fabric）的优点，实现了批量系统配置、批量程序部署、批量运行命令等功能。
另外的sshpt、salt暂时找不到相关简介资料，望谅解。
配置管理：puppet、cfengine
cfengine：cfengine（配置引擎）是一种 UNIX 管理工具，其目的是使简单的管理的任务自动化，使困难的任务变得较容易。Cfengine 适用于管理各种环境，从一台主机到上万台主机的机群均可使用。到2.2 版本为止，我们现在所知的用于一般性管理的最大安装机群约为20，000 台。
puppet暂无相关简介资料
负载均衡：lvs、haproxy、nginx
lvs：LVS是linux virtual server的简写linux虚拟服务器，是一个虚拟的服务器集群系统，可以再unix/linux平台下实现负载均衡集群功能。该项目在1998年5月由章文嵩博士组织成立。
haproxy：HAProxy是一个使用C语言编写的自由及开放源代码软件，其提供高可用性、负载均衡，以及基于TCP和HTTP的应用程序代理。
nginx：Nginx (engine x) 是一个高性能的HTTP和反向代理web服务器，同时也提供了IMAP/POP3/SMTP服务。Nginx是由伊戈尔·赛索耶夫为俄罗斯访问量第二的Rambler.ru站点（俄文：Рамблер）开发的，第一个公开版本0.1.0发布于2004年10月4日。
传输工具：scribe、flume
scribe：Scribe是Facebook开源的日志收集系统，在Facebook内部已经得到的应用。它能够从各种日志源上收集日志，存储到一个中央存储系统（可以是NFS，分布式文件系统等）上，以便于进行集中统计分析处理。
flume：Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。
备份工具：rsync、wget
rsync：rsync是linux系统下的数据镜像备份工具。使用快速增量备份工具Remote Sync可以远程同步，支持本地复制，或者与其他SSH、rsync主机同步。
wget：wget 是一个从网络上自动下载文件的自由工具，支持通过 HTTP、HTTPS、FTP 三个最常见的 TCP/IP协议下载，并可以使用 HTTP 代理。“wget” 这个名称来源于 “World Wide Web” 与 “get” 的结合。
数据库：mysql、oracle、sqlserver
mysql：MySQL是一个关系型数据库管理系统，由瑞典MySQL AB 公司开发，属于 Oracle 旗下产品。MySQL 是最流行的关系型数据库管理系统之一，在 WEB 应用方面，MySQL是最好的 RDBMS (Relational Database Management System，关系数据库管理系统) 应用软件之一。
oracle：Oracle Database，又名Oracle RDBMS，或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统，系统可移植性好、使用方便、功能强，适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的、适应高吞吐量的数据库方案。
sqlserver：SQL是英文Structured Query Language的缩写，意思为结构化查询语言。SQL语言的主要功能就是同各种数据库建立联系，进行沟通。按照ANSI(美国国家标准协会)的规定，SQL被作为关系型数据库管理系统的标准语言。SQL Server是由Microsoft开发和推广的关系数据库管理系统（RDBMS）。
分布式平台：hdfs、mapreduce、spark、storm、hive
hdfs：Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统（Distributed File System）。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。
mapreduce：MapReduce最早是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法。Google公司设计MapReduce的初衷主要是为了解决其搜索引擎中大规模网页数据的并行化处理。Google公司发明了MapReduce之后首先用其重新改写了其搜索引擎中的Web文档索引处理系统。但由于MapReduce可以普遍应用于很多大规模数据的计算问题，因此自发明MapReduce以后，Google公司内部进一步将其广泛应用于很多大规模数据处理问题。Google公司内有上万个各种不同的算法问题和程序都使用MapReduce进行处理。
spark：Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
storm：Storm可以方便地在一个计算机集群中编写与扩展复杂的实时计算，Storm用于实时处理，就好比 Hadoop 用于批处理。Storm保证每个消息都会得到处理，而且它很快——在一个小集群中，每秒可以处理数以百万计的消息。更棒的是你可以使用任意编程语言来做开发。
hive：hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。
分布式数据库：hbase、cassandra、redis、MongoDB
hbase：HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。
cassandra：Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发，用于储存收件箱等简单格式数据，集GoogleBigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身Facebook于2008将 Cassandra 开源，此后，由于Cassandra良好的可扩展性，被Digg、Twitter等知名Web 2.0网站所采纳，成为了一种流行的分布式结构化数据存储方案。
redis：Redis（Remote Dictionary Server )，即远程字典服务，是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。从2010年3月15日起，Redis的开发工作由VMware主持。从2013年5月开始，Redis的开发由Pivotal赞助。
mongodb：MongoDB是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。它支持的数据结构非常松散，是类似json的bson格式，因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大，其语法有点类似于面向对象的查询语言，几乎可以实现类似关系数据库单表查询的绝大部分功能，而且还支持对数据建立索引。
容器：lxc、docker
lxc：LXC为Linux Container的简写。可以提供轻量级的虚拟化，以便隔离进程和资源，而且不需要提供指令解释机制以及全虚拟化的其他复杂性。相当于C++中的NameSpace。容器有效地将由单个操作系统管理的资源划分到孤立的组中，以更好地在孤立的组之间平衡有冲突的资源使用需求。
docker：Docker 是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中，然后发布到任何流行的 Linux或Windows 机器上，也可以实现虚拟化。容器是完全使用沙箱机制，相互之间不会有任何接口。
虚拟化：openstack、xen、kvm
openstack：Openstack是一个云平台管理的项目，它不是一个软件。这个项目由几个主要的组件组合起来完成一些具体的工作。Openstack是一个旨在为公共及私有云的建设与管理提供软件的开源项目。它的社区拥有超过130家企业及1350位开发者，这些机构与个人将 Openstack作为基础设施即服务资源的通用前端。Openstack项目的首要任务是简化云的部署过程并为其带来良好的可扩展性。本文希望通过提供必要的指导信息，帮助大家利用 Openstack前端来设置及管理自己的公共云或私有云。
xen：Xen 是一个开放源代码虚拟机监视器，由剑桥大学开发。它打算在单个计算机上运行多达100个满特征的操作系统。操作系统必须进行显式地修改（“移植”）以在Xen上运行（但是提供对用户应用的兼容性）。这使得Xen无需特殊硬件支持，就能达到高性能的虚拟化。
kvm：KVM，是Keyboard Video Mouse的缩写，KVM 通过直接连接键盘、视频和鼠标 (KVM) 端口，能够访问和控制计算机。KVM 技术无需目标服务器修改软件。这就意味着可以在BIOS环境下，随时访问目标计算机。KVM 提供真正的主板级别访问，并支持多平台服务器和串行设备。KVM 技术已经从最初的基础SOHO办公型，发展成为企业 IT 基础机房设施管理系统。可以从kvm 客户端管理软件轻松的直接访问位于多个远程位置的服务器和设备。KVM over IP 解决方案具备完善的多地点故障转移功能、符合新服务器管理标准 (IPMI) 的直接界面，以及将本地存储媒体映射至远程位置的功能。
安全：kerberos、selinux、acl、iptables
kerberos：Kerberos 是一种网络认证协议，其设计目标是通过密钥系统为客户机 / 服务器应用程序提供强大的认证服务。该认证过程的实现不依赖于主机操作系统的认证，无需基于主机地址的信任，不要求网络上所有主机的物理安全，并假定网络上传送的数据包可以被任意地读取、修改和插入数据。在以上情况下， Kerberos 作为一种可信任的第三方认证服务，是通过传统的密码技术（如：共享密钥）执行认证服务的。
selinux：SELinux(Security-Enhanced Linux) 是美国国家安全局（NSA）对于强制访问控制的实现，是 Linux历史上最杰出的新安全子系统。NSA是在Linux社区的帮助下开发了一种访问控制体系，在这种访问控制体系的限制下，进程只能访问那些在他的任务中所需要文件。SELinux 默认安装在 Fedora 和 Red Hat Enterprise Linux 上，也可以作为其他发行版上容易安装的包得到。
acl：访问控制列表(ACL)是一种基于包过滤的访问控制技术，它可以根据设定的条件对接口上的数据包进行过滤，允许其通过或丢弃。访问控制列表被广泛地应用于路由器和三层交换机，借助于访问控制列表，可以有效地控制用户对网络的访问，从而最大程度地保障网络安全。
iptables：IPTABLES 是与最新的 3.5 版本 Linux 内核集成的 IP 信息包过滤系统。如果 Linux 系统连接到因特网或 LAN、服务器或连接 LAN 和因特网的代理服务器，则该系统有利于在 Linux 系统上更好地控制 IP 信息包过滤和防火墙配置。
问题追查：netstat、top、tcpdump、last
netstat：Netstat是控制台命令,是一个监控TCP/IP网络的非常有用的工具，它可以显示路由表、实际的网络连接以及每一个网络接口设备的状态信息。Netstat用于显示与IP、TCP、UDP和ICMP协议相关的统计数据，一般用于检验本机各端口的网络连接情况。
top：top命令是最流行Unix/Linux的性能工具之一。系统管理员可用运行top命令监视进程和Linux整体性能。
tcpdump：TCPDump可以将网络中传送的数据包完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。
last：显示系统开机以来或是从每月初登入者的讯息

广义上所有开源的软件都是运维工程师会使用到的平台和工具，同时也包括运维各个技术方向上自行研发的各类平台。

职业发展

运维工程师从工作方式上分为几大类：

运维工程师/运维开发工程师：
负责具体的产品线运维工作，同时也需要掌握开发的能力，深入业务，最了解业务的痛点和问题，同时研发/优化针对产品业务需求的平台、工具和手段，能够接触到各类优秀的系统架构并有能力做出优劣对比，同时对业务的掌控决定了相应运维工程师在业务发展中的作用。长远发展是成为大型系统的架构师。
运维平台研发工程师：
专门研发运维相关通用平台和技术，需要有一定的产品线运维经验或从产品线中拿到运维需求。对研发能力有较高的要求，对系统的设计有较严格的标准，并且能够理解用户需求，做出适合服务运维和满足运维工程师使用体验的运维产品，长远的发展是成为各个技术纵向领域的技术专家。
数据库研发工程师/数据库工程师：
数据库方向是运维技术中较为特殊的一个方向，由于业务的重要性通常需要专设岗位，业界在该方向也有深厚的研究和积累。主要方向有数据库内核、云数据库等，长远发展是数据库领域的技术专家，数据库架构师。
运维经理：
运维同学做事情的过程中通常需要协调多个RD和QA同学，对协调和推进能力要求比较高，对一些技术深度还不错，协调和推进能力比较高的同学非常适合转型管理职位，长远的发展和技术部门的管理职位一样目标是CTO、CEO。

各个方向上的工程师发展到一定阶段后，没有明确的界限，需要同时具备较强的运维、架构、编程、算法等能力，是一个要求很高要求的职业。

运维行业前景

从行业角度来看，随着中国互联网的高速发展、网站规模越来越来大、架构越来越复杂，对专职网站运维工程师、网站架构师的要求会越来越急迫，特别是对有经验的优秀运维人才需求量大，而且是越老越值钱。
从个人角度，运维工程师技术含量及要求会越来越高，同时也是对公司应用、架构最了解最熟悉的人、越来越得到重视。
互联网运维是一个融合多学科（网络、系统、开发、安全、应用架构、存储等）的综合性技术岗位，给运维工程师提供了一个很好的个人能力与技术的发展空间。
运维工作的相关经验将会变得非常重要，而且也将成为个人的核心竞争力，优秀的运维工程师具备很好的各层面问题的解决能力及方案提供、全局思考的能力等。
由于运维岗位所接触的知识面非常广阔，更容易培养或发挥出个人某些方面的特长或爱好，如内核、网络、开发、数据库等方面，可以做得非常深入精通、成为这方面的专家。
当前国内外对运维人才的需求非常迫切，运维工程师的薪资也水涨船高，与研发、测试等技术部门持平，甚至超出。

国际会议

以下是部分运维相关的国际会议，会议涉及运维及运维相关技术的交流学习。

运维相关国际会议
nsdi’14
Percona live
Velocity Oreilly web
fcw’14
LISA '14
35th IEEE S&P 2014
SIGMOD/PODS ’14
OSDI’14
oow’13
SRECON

有关运维的知识还有太多，我们所知道的只是冰山一角中的一角，运维无限~_ ~

逝去的蛮霸

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
运维解析

运维运维，这里指互联网运维，通常属于技术部门，与研发、测试、系统管理同为互联网产品技术支撑的4大部门，这个划分在国内和国外以及大小公司间都会多少有一些不同。一个互联网产品的生成一般经历的过程是：产品经理、需求分析、研发部门开发、测试部门测试、运维部门部署发布以及长期的运行维护。运维，本质上是对网络、服务器、服务的生命周期各个阶段的运营与维护，在成本、稳定性、效率上达成一致可接受的状态。运维的职责对于初创公司，运维部和系统部一般是合二为一的，相关工作由同一批人负责，界限可能不是很明显。大型公司
复制链接

扫一扫

专栏目录