运维工程师的工作内容都有哪些?

  运维工程师(Operations)在国内又称为运维开发工程师(Devops),在国外称为 SRE(Site Reliability Engineering)。负责维护并确保整个服务的高可用性,同时不断优化系统架构、提升部署效率、优化资源利用率提高整体的ROI.运维工程师面对的最大挑战是大规模集群的管理问题,如何管理好几十万台服务器上的服务,同时保障服务的高可用性,是运维工程师面临的最大挑战。在一些规模较大的公司(比如:Google、FaceBook、百度、阿里、腾讯等),运维工程师和系统管理员是有一定的区别:系统管理员:主要负责机房网络、服务器等硬件基础设施的运行和维护。运维工程师:主要负责管理并维护在运行在海量服务器上的软件服务。

  随着互联网的高速发展,像百度、阿里巴巴、京东、美团、饿了么、腾讯等一大批互联网企业需要信息安全工程师,几乎所有企业中都需要信息安全工程师管理公司的网络、服务器、电脑设备等,目前网络运维工程师的需求缺口特别大。

  作为运维工程师,一般的工作内容都有什么?

  在软件产品的整个生命周期中运维工程师都需要适时地参与并发挥不同得作用,因此运维工程师的工作内容和方向非常多:

  事件管理:目标是在服务出现异常时尽可能快速的恢复服务,从而保障服务的可用性;同时深入分析故障产生的原因,推动并修复服务存在的问题,同时设计并开发相关的预案以确保服务出现故障时可以高效的止损。在这方面主要工作内容有:

  问题发现:设计并开发高效的监控平台和告警平台,使用机器学习、大数据分析等方法对系统中的大量监控数据进行汇总分析,以期在系统出现异常的时候可以快速的发现问题和判断故障的影响。

  问题处理:设计并开发高效的问题处理平台和工具,在系统出现异常的时候可以快速/自动决策并触发相关止损预案,快速恢复服务。

  问题跟踪:通过分析问题发生时系统的各种表现(日志、变更、监控)确定问题发生的根本原因,制定并开发预案工具。

  变更管理:以可控的方式,尽可能高效的完成产品功能的迭代的变更工作。在这方面运主要工作内容有:

  配置管理:通过配置管理平台(自研、开源)管理服务涉及到的多个模块、多个版本的关系以及配置的准确性。

  发布管理:通过构建自动化的平台确保每一次版本变更可以安全可控地发布到生产环境。

  容量管理:在服务运行维护阶段,为了确保服务架构部署的合理性同时掌握服务整体的冗余,需要不断评估系统的承载能力,并不断优化之。在这方面主要工作内容有:

  容量评估:通过技术手段模拟实际的用户请求,测试整个系统所能承担的最大吞吐;通过建立容量评估模型分析压力测试过程中的数据以评估整个服务的容量。

  容量优化:基于容量评估数据,判断系统的瓶颈并提供容量优化的解决方案。比如通过调整系统参数、优化服务部署架构等方法来高效的提升系统容量。

  架构优化:为了支持产品的不断迭代,需要不断的进行架构优化调整。以确保整个产品能够在功能不断丰富和复杂的条件下,同时保持高可用性。

  能力要求

  基础技能:

  精通C/Python/Perl等1至2种编程语言

  熟练掌握常用数据结构和算法,并能灵活运用

  熟悉网络基础知识

  深入理解Linux操作系统

  加分技能:

  熟悉开源的监控平台工具,比如:Ganglia、Nagios等

  熟练掌握Shell脚本熟悉Awk、Sed等基础工具

  熟悉分布式计算或者存储系统,比如Hadoop/Hbase/Storm等

  熟悉机器学习原理能付诸实践者更佳

  熟悉TCP/IP、HTTP等网络协议,精通socket网络编程

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值