目录
一、原则概述
Oncall 工作对于保障系统稳定运行至关重要,以下是可靠性 Oncall 的十大原则,旨在提升值班效率和系统稳定性。
二、各原则详情
(一)原则一:态度决定命运,保持积极的心态
在 Oncall 工作中,积极的心态不可或缺。面对各类问题与挑战,应展现出解决问题的决心和热情,这将直接影响我们应对工作的效果以及整个工作状态。
(二)原则二:补位意识
对于 Oncall 人员而言,补位意识极为关键。当发现问题时,无论该问题是否属于自己直接负责的范畴,都应积极采取行动。要及时通知相关人员,并尽可能协助处理,以此保障整个系统的稳定运行。具备这种意识不仅能够降低故障带来的影响,还能在团队中树立起专业可靠的形象,对个人职业发展大有帮助。
(三)原则三:用户为先意识
作为服务提供者,始终将用户的利益放在首位是我们的职责所在。通过有效沟通与用户建立信任,减少因不确定性而给用户带来的恐慌和不满,确保为用户提供高质量、连续性的服务。
(四)原则四:Oncall 前做好准备
- 确保能快速感知问题
- 保证 Oncall 时电话畅通,开启手机震动功能,同时检查是否存在运营商配置的黑名单屏蔽情况,避免关键报警被屏蔽。
- 确保电脑时刻在身边且网络畅通,提前申请好 VPN 权限,并且将内部系统的各种权限也提前申请好,以保证能第一时间察觉到问题的发生。
- 能找到合适的人处理问题
- 提前熟悉各类监控和报警信息,知晓报警出现时应按照何种级别去处理。
- 了解上下游的协同响应机制,以便在出现多团队配合的故障时,能第一时间联系到相关人员。
- 对于之前处理问题的标准操作流程(SOP),最好亲自实践一下,确保对文档理解准确且操作熟练。
- 能掌控处理的方案和节奏
深入了解业务、架构、基建等方面的内容,这样当问题出现时,能够独立进行判断、思考并处理问题。
(五)原则五:严格地规范 Oncall 过程
- 无故障或无异常状态时
Oncall 大部分时间处于无故障状态,在此期间需要做好以下三件事:- 定期巡检:通过巡检发现潜在隐患,例如关注流量的增长或下降、资源是否充足等情况。
- 日报总结和沉淀:每天总结诸如流量、日活、峰值、问题处理情况、上线情况等内容。
- 快速响应:关注群消息,及时做好反馈与处理工作。
- 遇到紧急情况时
- 明确发生了什么:作为 Oncall 人员,首要任务是清楚知晓发生了什么事,明确具体影响以及受影响的对象。
- 通报情况:让更多人了解事情经过,使应处理该问题的人员介入处理,切勿一出现问题就盲目埋头处理,而不做任何通报,否则很可能浪费时间走弯路。
- 操作处理:若需要自己进行操作,可请求他人协助处理故障,然后再开展相应工作。简单概括就是 “一确认,二通报,三操作” 的流程。
(六)原则六:Oncall 后认真复盘和总结
深入进行复盘分析意义重大,这样能够避免在同样的问题上再次犯错。不仅有助于快速解决新出现的问题,对于个人而言,更重要的是能借此抓住职业机遇,毕竟机遇总是垂青那些有准备的人。
(七)原则七:避免同时处理多个重要任务
同时开展两项重要的变更或任务,容易分散我们的注意力,进而影响对细节的关注以及处理质量。为提高效率、降低风险,我们应当一次专注于完成一项重要任务,确保有足够的时间和资源对每一步进行仔细检查与验证。保证每个变更都经过充分测试和评估,避免潜在问题和故障的出现。专注完成单一任务后,再着手下一个任务,这是提高工作质量、保障系统稳定性的有效策略。
(八)原则八:杜绝侥幸心态
在 Oncall 工作中,任何侥幸心态都可能导致忽视潜在风险,所以要始终保持警惕,不忽视任何小概率事件,严谨对待每一个可能影响系统稳定的因素。
(九)原则九:不要轻易放过任何一个异常
对于任何异常情况都要给予高度重视,及时展开调查与处理,不能因为看似微小或无关紧要就轻易忽略,以防小异常引发大问题。
(十)原则十:不要隐瞒
在紧急情况下,及时、准确地分享信息至关重要。当问题发生时,应迅速通报并保持透明的态度,这不仅有助于快速定位问题,还能减少因隐瞒或延迟通报而造成的不必要损失。培养开放、坦诚的沟通文化,鼓励团队成员在遇到问题时勇于承担责任,对于提升团队的响应能力和整体效率起着关键作用。
三、小结
Oncall 工作的十大核心原则可概括为以下几个方面:
(一)一个核心态度
保持积极主动,面对问题和挑战时展现出解决问题的决心和热情。
(二)两个基本意识
- 补位意识:在团队中相互支持,主动填补可能出现的职责空缺。
- 用户为先意识:始终将用户的利益放在首位,确保服务的连续性和质量。
(三)三个行动准则
- 事前准备:在 Oncall 前进行全面的准备工作,包括熟悉系统和工具等。
- 事中规范:在 Oncall 期间,严格遵循既定的操作规范和流程。
- 事后总结:值班结束后进行详细的总结,涵盖问题解决情况以及经验教训等内容。
(四)四个禁忌
- 避免多任务处理:不同时进行两项重要任务,以保持专注和效率。
- 杜绝侥幸心理:不忽视任何小概率事件,始终保持警惕。
- 重视异常:不放过任何异常情况,及时调查和处理。
- 不要隐瞒失误:秉持坦诚的态度,不故意隐瞒犯下的错误。
四、思考题
(一)问题情况
如果晚上突然收到一个报警电话,需要做紧急上线,但此时发现没有人审批流程,那么应该选择跳过流程还是继续打电话找人呢?
(二)应对策略
这个问题需要从两方面区分对待:
- 能明确定位到原因,必须上线才能解决:在联系不到审批人的情况下,需要当机立断,先解决线上问题(公司服务运维应急响应流程应该有这种特殊情况的规定)。
- 持怀疑可能性,需要上线加一些排查日志的 log 来帮助定位:这种情况下则需要联系到审批人再进行上线操作。要学会保护自己,完全遵守审批流程是最好的方式。