研发团队对运维团队的诉求,以及运维呈现的价值已经发生了变化,我们更加需要能够帮助团队建设出高效运维体系的角色,而不是能够被动响应更多问题的角色。
打造一个运维体系,我们完全可以把它类比为一个产品业务体系。公司的组织架构中,针对一个产品或业务,如果要对其进行技术上的实现,自然就离不开类似运营提需求,产品分析设计、业务架构师设计建模、开发实现以及测试保障这样一环套一环的配合,每个角色都发挥着独特的价值。
那么,对于一个运维体系,就相当于是面向研发团队内部的一套技术业务体系,只不过我们的需求方和客户是开发人员,而不是业务人员。
运维团队中技术环节的角色是不缺的,但是缺少的是业务环节的产品和运营角色。但是做事情,不一定非要有岗位上的明确设置才能往下做,只要有能起到这个作用的人承担这样的职责就够了。而这里,最合适做这个事情的,一定是运维,因为运维是日常线上运维的执行者,只有运维最清楚这里面的细节、问题和痛点,换其他人可能很难能够讲清楚。
这里我们强调的是运维要有产品和运营意识,总结起来最本质的就两点:第一,能将需求讲清楚;第二,能将产品推广落地。
技术产品
关于技术产品,其实主要就是回答以下几个问题:
- 是不是能够把原本靠人工完成的很多工作转化成需求?
- 是不是能够把日常工作中运维和开发的痛点转化成需求?
- 是不是能够把当前系统存在的问题和隐患找出来,在解决的过程中,经过分析总结提炼成需求?
这个过程中,可以尝试把自己做的事情串一下,用流程图也好,时序图也好,把整个过程梳理一下。过程中每个环节具体要做的事情可以通过文字描述的方式写出来,尽量分条罗列,清晰有条理。把一些标准化和生命周期管理的方法论融进来。这样可以一举两得,我们的标准化制定能力,场景需求分析能力慢慢都提升上来了。
当需求提炼出来之后,跟对应的运维开发一起合作,将需求真正落地实现。这样一个过程下来,运维的价值和能力体现是不是就跟之前有了很大的不同呢?
技术运营
通过技术产品的工作,可以做出一些有针对性的工具和平台来。但是,仅仅有工具和平台还远远不够,因为只有把这个平台真正落地,并产生了实际效果,才是有意义、有价值的。这个“真正落地”就是技术运营要做的事情。
所以,接下来要做的就是落地。
- 平台推广落地。工具做出来了只是第一步,得要有人用,这就需要去推动落地,让大家都来使用,从而真正给团队带来规模上的效率提升。同时,技术产品也是各种标准和规范的载体,在这个落地过程中,也是标准落地和执行的过程,就需要运维和开发配合做出一些改造,为后续更大规模的效率提升和平台建设打下基础。
- 线上运行数据分析。通过平台和工具,对线上业务和应用运行时的指标进行数据分析。比如,应用上线或者每次变更上线后,线上运行的情况是怎样的,容量有没有降,RT 有没有上涨,监控有没有异常,用户体验有没有下降,用户和客服的反馈如何等等。以上这些维度和指标就需要通过数据、图表和曲线的方式呈现出来,并基于这些呈现进行分析和判断,做出后续运维决策,比如是否需要扩缩容,是否需要处理问题,是否有改进的地方。在这一点上,应该要形成对整个业务和技术架构体系改进和完善的正反馈才行。想想看,业务运营是不是也非常关注业务的数据报表,也要依赖数据情况决定后续的业务运营手段。
- 过程改进。平台更多的是一个执行工具,但是工具的使用是要配合大量的标准和流程一起来运作的。如果一次发布之后流量下降,RT 升高很多,面对这样的问题我们应该有怎样的应对机制,这里就体现出管理和流程的重要性了,要解决好不同角色和团队之间的协作问题。同时,过程中需要改进和完善的内容,能够落实到平台和工具的,也要形成正反馈,来提升我们工具和平台的效率。
我们面临的业务场景在不断发展和变化,这就决定了技术运营过程也必然是一个持续发展和完善的过程。所以从这个角度讲,技术运营的生命力和竞争力将会是持久的。
运维虽然不是业务系统的实现者和代码的开发者,但是我们参与到了产品技术标准的制定、业务系统运维体系的建设以及后期的技术运营中,这个时候运维已然成了整个技术架构的设计者之一,而且是架构稳定和演进的看护者,这时我们所发挥的作用和呈现的价值已大不相同。
此文章为4月Day19 学习笔记,内容来源于极客时间《赵成的运维体系管理课》,推荐该课程。