运维管理层篇
(1)故障等级定义流程是什么?
p1级的故障整个流程是什么。是noc通过监控和大盘发现问题然后拉群,(如何拉到对的人的呢?),拉群之后再分析问题吗?然后再干嘛了?另外这种p1主流程故障响应时间多少,处理问题的时间是多少有定义嘛?
这是xx芒面试题,运维总监问我的问题。
p1 以上的拉稳定性组的所有成员。每个研发组有一名同事在稳定性组。
p1 以下的通过appid拉人,并且是自动的,拉的人是相对于服务的appid的owner,之前写在数据库里面的,通过飞书自动拉人。
我们这边定义的是 5 20 25 --> 5分钟内发现,20分钟内定位,25 恢复。
(2)如果全部用户无法下单,有什么降级措施嘛?运维需要做什么?
如果全部无法下单,得先定位问题在哪,才知道怎么降级。目前这边是没有同城多活,或者多机房降级预案的。
运维充当整个故障的支持角色。
(3)有什么管理者的经典名言?
- 你知识的水平决定了你团队的水平 <