04-监控-手册(Runbook)

本文介绍了RunBook的重要性和编写注意事项,强调了它在复杂环境中的知识传播作用。内容包括RunBook应包含的服务描述、依赖关系、指标日志和警报处理。此外,还提供了一个基于Python Flask开发的Demo App的RunBook示例,详细阐述了其技术栈、依赖服务、监控指标和常见问题处理。
摘要由CSDN通过智能技术生成

前言

好的手册在当警报触发时,便于快速定位问题。在更复杂的环境中,团队中的每个人都不会对每个系统都有所了解,而且Runbook是传播这些知识的一个载体,更是好方法。

手册 == RunBook, 请了解。

1、编写RunBook的注意事项

为特定服务编写了一个好的Runbook,大致需要一下几点:

  • 这项服务是什么,它的作用是什么?
  • 谁是项目负责?
  • 它有什么依赖关系?
  • 它的基础设施是什么样的?
  • 它发出什么指标和日志,它们是什么意思?
  • 为它设置了什么警报,为什么?

对于每个警报,我们可以包含指向该服务的Runbook的链接。当有人响应警报时,他们将打开Runbook并了解正在发生的事情,警报的含义以及潜在的补救步骤。

与许多好东西一样,Runbook很容易被滥用。如果警报的补救步骤与复制粘贴命令一样简单,那么说明已经开始滥用Runbook。对于上面说的情况应该自动执行该修复或解决基础问题,然后完全删除警报。

Runbook用于解决某些问题时需要人工判断和诊断的时间。

2、基于Web App的RunBook示例

当然,这是一个示例,你完全可以根据你的情况进行完善与调

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值