运维
漂仔
多年互联网大厂运维、SRE、DevOps 工作经验,专注于大规模业务、机器环境下架构及解决方案实现。
欢迎关注我的微信公众号:qxren7
展开
-
大规模机器集群-单机/集群/服务/机房/从零恢复的快速交付
本篇内容,依赖之前的3篇文章。大规模机器集群-故障自动处理(一)大规模机器集群-故障自动处理(二)大规模机器集群-基础环境一致性名词定义 ARS:AutoRepairSystem,故障自动维修系统 服务树:一个树形数据结构,记录着机器与业务线的对应关系 Deployer:企业内部的CI/CD系统,记录和执行着所有的业务程序...原创 2019-12-29 16:45:53 · 355 阅读 · 0 评论 -
大规模机器集群-基础环境一致性
本篇讲 “故障自动维修流程”里 “环境初始化”这个环节。初始化的问题—环境不一致可能大家会觉得,环境初始化有什么好说的,不就是跑一堆设置系统参数的脚本么? 事实上,设置环境很容易,但是要保证环境设置正确会遇到很多问题。环境不一致影响业务的case先来看我们对业务sre 的访谈,因“环境设置不正确”导致业务受损的case有很多,如下所示, 因超线程未开启,导...原创 2019-12-22 08:12:02 · 348 阅读 · 0 评论 -
大规模机器集群-故障自动处理(二)
本篇开始介绍具体的实现过程,为表述方便,先定义一些名词, AutoRepairSystem:故障自动维修系统, 缩写为ARS 原子操作:任务的最小操作,机器任务通常是指重启、重装 运维人员:运维工程师= SRE = OP,系统工程师 = sys 远程管理工具: 远程控制操作物理机器的工具,如ipmi、ilo 先来看ARS的整体视图和流程图,...原创 2019-12-07 08:23:28 · 643 阅读 · 0 评论