对运维的理解

运维的职责

以服务为中心,以稳定、安全、高效为三个基本点,确保公司的互联网业务能够7×24小时为用户提供高质量的服务。运维的职责覆盖了产品从设计到发布、运行维护、变更升级及至下线的生命周期。

运维的工作范围

  • 服务监控技术:包括监控平台的研发、应用,服务监控准确性、实时性、全面性的保障
  • 服务故障管理:包括服务的故障预案设计,预案的自动化执行,故障的总结并反馈到产品/系统的设计层面进行优化以提高产品的稳定性
  • 服务容量管理:测量服务的容量,规划服务的机房建设,扩容、迁移等工作
  • 服务性能优化:从各个方向,包括网络优化、操作系统优化、应用优化、客户端优化等,提高服务的性能和响应速度,改善用户体验
  • 服务全局流量调度:接入服务的流量,根据容量和服务状态在各个机房间分配流量 服务任务调度:服务的各种定时/非定时任务的调度触发及状态监控
  • 服务安全保障:包括服务的访问安全、防攻击、权限控制等 数据传输技术:包括p2p等各类传输技术的研发应用,也远距离大数据传输等问题的解决
  • 服务自动发布部署:部署平台/工具的研发,及平台/工具的使用,做到安全、高效的发布服务 服务集群管理:包括服务的服务器管理、大规模集群管理等
  • 服务成本优化:尽可能降低服务运行使用的资源,降低服务运行成本
  • 数据库管理(DBA):通过设计、开发和管理高性能数据库集群,使数据库服务更稳定、更高效、更易于管理
  • 平台化的开发:类docker等平台的开发管理,及服务接入技术 分布式存储平台的开发优化与接入

相关流程和规范

  • 线上变更流程
  • 下线CheckList
  • 上线CheckList
  • 线上异常处理流程
  • 核心服务故障处理流程
  • 运维事故处罚机制
  • 机器命名规范
  • 故障处理机制

需要具备的能力

  • 扎实的计算机基础知识,包括计算机系统架构,操作系统,网络技术等
  • 通用应用方面需要了解操作系统、网络、安全,存储,CDN,DB等,知道其相关原理
  • 编程能力,小到运维工具的开发大到大型运维系统/平台的开发都需要有良好的编程能力
  • 深刻理解分布式系统架构,大规模并发处理技术
  • 丰富的系统知识,包括系统工具、典型系统架构、常见的平台选型等 数据分析能力,能够整理、分析系统运行的各项数据,从中发现问题及找到解决方向
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值