运维需求及解决现网问题的能力评估

一、运维需求背景

现在阿里云线上服务器由开发同事管理,主要负责应用的发布/升级;同时对系统进行维护/服务器监控、资源回收等运维工作; 目前已实施对阿里云线上服务器软硬件资源的监控,实现短信/钉钉/邮件等告警举措; 由于java后台开发人力资源紧张,多项目并行开发,同时,需要回到本职开发及日常管理工作,加上运维的工作量出现倾斜, 鉴于此,我们需要招聘一名运维人员来管理维护系统,保障现有<产品>的线上服务的健康运行环境。

二、不同级别运维工程师的能力体现

1、初中级运维

从申请域名开始,购买/租用服务器,上架, 调整网络设备的设置,部署操作系统和运行环境, 部署代码, 软硬件资源监控等

2、中高级运维

资源评估、控制服务器成本,完成申请资源; 软件硬件资源监控、应用服务评估运行状态; 对网络流量波动、程序bug等问题的出现制定预案; 服务管理,包括资源整合、扩容、流量调度等; 有一定编码能力,需要结合业务开发运维平台,实现自动化部署方案。

3、高级运维

懂开发技术架构为前提:

a、项目立项之初,评估产品结构设计的合理性,

        熟悉产品业务,便于做到应用业务级别的监控;

b、产品发布过程中,实现内测限制<ip白名单>及对外开放服务,

        同时需要保障不中断对外提供服务的能力;

c、产品上线后,对于运维监控的级别又有了新的挑战:

        i>、软硬件资源监控,可以不依赖阿里云生态;

        ii>、做到应用服务监控,往下便到了日志级别监控;

        iii>、业务级别监控,需要与运营/开发协作了解业务;甚至有直接解决bug的能力。

d、收集工作中的问题和数据进行分析,制定相关改进计划,对以下能力评估体现:

e、故障处理能力:服务中止、服务器奔溃等问题制定预案;

f、服务容量管理:需要评估服务的容量,规划好服务资源;

g、服务性能优化:包括网络、系统、应用等方向,提高服务的性能和响应速度,提高用户体验;

h、服务集群管理、成本管理等等服务质量、效率、成本、安全等方面的工作;

三、目前面临的问题

1、无法及时响应反馈线上问题,快速定位bug或服务器问题,且无法及时解决;

- 定位系统的问题,需要一位深入业务的高级开发便可以直接修正bug;

        - - 但是对于其职能定位?定然会照成资源浪费;

- 对突然出现的问题做到快速响应和处理;

-保证服务的稳定运行。

2、这个点的问题在于运维或开发在休息日是否有条件(网络、电脑设备、位置)来解决问题;

3、需要解决上面的问题,尤其是后台bug,至少需要一名中高级的后台开发工程师,且需要深入了解公司业务,且不能全职运维;这是一个尴尬的局面,如果遇见节假日反馈问题且需要及时响应,那么可能出现另一种工作状态,他必须在节假日上班,与正常出勤的同事无缝衔接;

4、现有公司硬件资源有效利用:从业务角度,调配资源,资源使用率最大化,从而节省资源;

5、有时扩容需求,这时需要监控现网数据来预测服务的增长趋势,对软件和系统性能进行调优。

四、解决现状的办法

1、招聘一位中高级运维,解决日常运维问题(环境、网络等方面),需要监控系统运行状态,懂开发技术架构,深入业务解决运营痛点,能做到业务级别监控,协助开发定位业务bug;

2、运维技术层面需要会和开发做elk日志分析系统,熟练运用k8s集群,这会解决服务器自动伸缩(在服务器资源吃紧时增加实例,空闲时减少实例)、负载均衡(不能再依赖nginx来做)

3、最终运维的作用将会是协助开发定位问题,获取日志、sql查询数据、服务器维护等或其他运维工作。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

职说测试

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值