中小公司如何启动运维平台构建之路

最新推荐文章于 2024-01-22 09:45:43 发布

George_Fal

最新推荐文章于 2024-01-22 09:45:43 发布

阅读量247

点赞数

这里所谓的中小公司，是我的个人定义，服务器数量在5000以下的公司。大公司通常都已经走上了这条路，应该不会看我这篇文章了：）

运维平台收益

先说说为啥要开启自动化运维这条路，其实简单，主要目的有二：

业务运行可用可靠
业务迭代既稳又快

我们希望通过构建一整套运维平台，来规范研发的变更流程，来及时发现线上问题，能够快速止损故障，同时把机器管理明白，权限分配清楚，服务梳理透彻。规范化之后，后面做一些统一的服务治理或者一些公共组件/服务，都可以依托平台的元信息来搞，说是基石也不为过也。

从痛点处着手

首先胸中需有丘壑，胸中需有蓝图，运维蓝图可参看我之前的文章：《运维蓝图思考》。知道未来理想状态了，然后低头看现状，最后制定达到理想状态的路径。

有句话说的好，“架构是演进出来的，不是设计出来的”，各个公司的情况各异，需要有针对性的实施。从哪里着手？从自己公司的当前痛点着手。在这个阶段，我个人猜测，可能会有下面的困扰：

有部分机器给了业务A，部分机器给了业务B，需要有个地方来记录这个对应关系，记录机器上面部署了什么服务，接口人是谁，要不然，机器要做什么操作的时候，或者机器报警了，都不知道该联系谁
机器经常要做一些批量操作，批量安装lib，调整配置，查看机器配置，跑个脚本，需要控制权限，业务A的机器只能业务A的同学才能操作，操作历史要可审计，谁干了啥都得有记录。中控机信任关系管理麻烦，批量操作速度慢，结果不好查看不好筛选
安装一些常见软件，比如MySQL、redis、kafka等，不同业务安装的方式、版本、参数配置千差万别，缺少一个最佳实践，也没有很好的沉淀，自己需要自己攒，业务A的同学对这些软件的知识积累，业务B的同学无法享受到
线上出了问题，有很多时候是客户先发现，我们被通知，非常被动。我们的业务有一些营收指标，需要有个系统来看展示历史趋势图，重要业务指标如果下跌也得及时报警。当然，机器硬件出问题，进程挂了等基础问题也是需要及时报警出来的

针对上面的问题，我们可以构建一些基本的平台系统来解决。下面挨个阐述...

服务机器管理

这是第一个系统，记录管理了很多元数据，要求数据准确，其他系统会依赖此系统的数据。系统构建思路：

1，机器要想知道归属哪个团队哪个业务线，部署了哪个服务哪个模块，首先系统里得先有团队、业务线、服务、模块这些概念，要不然机器跟什么关联呢

2，本质上是对机器做了分组，常见分组机制就是一维的扁平分组和多维的标签，类似你的博客系统。可以对一篇博文指定分类，也可以同时打多个标签

3，由于机器可能混部，一个机器需要同时属于多个分组，这种情况用一维的分组就不好描述了，首推标签的方式，标签可以是K=V的方式，K实际是个维度信息，比如dept=sre,service=minos,module=web，假设有5台机器打上了这3个标签，其意为：部门这个维度上来看，这5台机器属于sre这个部门，服务这个维度上来看，这5台机器属于minos这个服务，模块这个维度上来看，这5台机器部署了web这个模块

4，看起来很完美，但是，标签最致命的一点是不够直观，比如我想通过标签搜索机器，首先你得知道有哪些标签，这个是最麻烦的

5，所以笔者待过的四家公司都是用树状结构来描述这个分组关系，相对会直观很多，树的每个节点其实是有业务语义的，类似一个标签，只是这个标签具备了层级关系