团队线上故障处理模板（SRE必收藏）

最新推荐文章于 2024-05-09 10:09:19 发布

apl359

最新推荐文章于 2024-05-09 10:09:19 发布

阅读量525

点赞数

文章标签： java 人工智能大数据 linux spring

本文链接：https://blog.csdn.net/apl359/article/details/120775746

版权

如果对于生产环境的故障没有一个提前的准备，出现故障时，团队必定手忙脚乱。前段时间，笔者设计了一个线上故障处理的流程模板。当出现故障时，根据这个模板创建一个故障单，然后团队的人各司其职，将自己的那部分信息填到故障单中。方便排查人排查故障的根因。

当然，这个故障单应该是可以自动化生成的，但是，并不是每个团队一开始就有这样的能力去建设。所以，小团队时，手工创建这个故障单也是可以的。

同时，你也会发现，这个故障处理模板很大程度上，其实是一个初级的AIOps。

以下是故障单的内容：

事故业务现象

<由谁在什么时间点报什么问题，尽量详细，比如设备id，用户id等>

事件发生频率

偶发 or 必现

事故复现方法

方便大家复现。

事件时间流记录

以事件时间流的方式记录出现事故前，事故中的操作记录

注：时间能精确就精确

时间	事件	备注
202

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

apl359

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

60分钟安放为梳理SRE岗位关键脉络（加薪必备）

03-17

- 监控与报警：SRE需要建立有效的监控系统，及时发现并处理问题，设置合理的报警策略以减少误报和漏报。 - 性能优化：优化系统的响应时间、吞吐量和资源利用率，确保服务的高效运行。 - 故障排查与恢复：快速定位...

SRE方法论-故障处理

qq_25264217的博客

02-24

166

SRE实践心得，故障处理部分

参与评论您还未登录，请先登录后发表或查看评论

11条SRE血泪教训，建议您了解一下

LinkSLA的博客

05-08

762

我们在一次 Calendar 故障中吸取了这一教训，在这次故障中，我们的测试并没有遵循与实际使用相同的路径，结果导致大量的测试，…“急停按钮”是一种独特但非常实用的安全功能：它应该启动一个简单、易于触发的操作，将触发不良状态的因素还原为（理想情况下）关闭正在发生的一切。结果发现，缓存对 YouTube 来说是一个相当关键的功能，而配置更改带来了一些意想不到的后果，使服务完全瘫痪了 13 分钟。在这次为期 6 天的故障中，根据网络故障发生时的位置、服务负载和配置，估计有 70% 的服务受到了不同程度的影响。

什么是SRE，如何从 0 建设 SRE 运维体系？

ITIL之家公众号

04-27

1826

官方网站www.itilzj.com文档资料:wenku.itilzj.com写在前面前短时间发了一篇文章讨论《如何构建IT监控管理体系？（一）IT监控管理流程设计》，其中给大家留了一个预告，说会写一篇《如何使用SRE的实践来落地ITIL4的“事态和监控管理实践”》。在这之前先给大家从监控的视角介绍下SRE以便于能够更好的利用SRE的实践思想落地ITIL4的“事态和监控管理实践”。导入：S...

快准稳：值得所有运维学习的SRE故障处理经验

最新发布

ZL4120505的博客

05-09

跨越不确定风险，华为云 SRE 探索云上运维的确定性答案

CSDN资讯

01-17

2435

在信息技术产业的发展史上，“云化”是重要的演进。据华为发布的全球产业展望GIV预测，数字技术与智能能力逐渐以平台模式被世界各行各业广泛应用，预计在2025年，全球所有企业都将使用云技术，而基于云技术的应用使用率将达到85%。企业数字化除了关注如何“上好云”外，如何“用好云”也是同等重要。想要“用好云”，高质量的运维是必不可少的一环。上云前，传统运维与硬件打交道为主，上云后，运维人员几乎无法见到物理...

SRE：在SRE团队中工作

02-26

2. **性能优化**：SRE团队会深入研究系统的性能瓶颈，通过优化代码、数据库查询、网络配置等手段提高服务的响应速度和处理能力。 3. **容量规划**：预测并准备应对未来的流量增长，SREs需要进行容量规划，以确保...

google sre建设中文文档 SRE实战手册 devOps 实战

05-13

第四：很强的Trouble Shooting与思考、抽象能力，这三个能力在SRE工作当中是至关重要的，是时间与实践积累的最终成果。以下为《SRE谷歌运维解密》一书当中已经提到了关键点：可观测性系统故障响应测试与部署...

美团点评的SRE发展与实践

02-25

现在渐渐已经成为各大互联网公司技术团队的标配。美团点评作为综合性多业务的互联网+生活服务平台，覆盖“吃住行游购娱”各个领域，SRE就会面临一些特殊的挑战。业务量的飞速增长，机器数量剧增，导致人工维护成本...

SRE实战：如何低成本推进风险治理？稳定性与架构优化的3个策略

shulieTech的博客

10-11

477

数列科技联合创始人、CTO——陆学慧TakinTalks 稳定性社区发起人。参编《信息系统稳定性保障能力建设指南 1.0》和《稳定性保障服务商能力要求》。2017 年联合创立数列科技，专注于高可用性领域，为企业提供稳定性解决方案，帮助快速稳定地应对技术挑战。温馨提醒：本文约 5000 字，预计花费 9 分钟阅读。「TakinTalks 稳定性社区」公众号后台回复 “交流” 进入读者交流群；回复“0926”获取课件资料；先解释一下什么是经验库。

问题反馈模板

02-23

运营常用问题反馈模板，更快的整理问题汇总和分析。

读书笔记（SRE：Google运维解密）：第12章有效的故障排查手段

lo_ong的博客

10-05

427

新手们常常不能有效地进行故障排查，是因为这个过程理想情况下同时需要两个条件。（a）对通用的故障排查过程的理解（不依靠任何特定系统）。（b）对发生故障的系统的足够了解。通用的故障排查流程从理论上讲，我们将故障排查过程定义为反复采用假设-排除手段的过程：针对某系统的一些观察结果和对该系统运行机制的理论认知，我们不断提出一个造成系统问题的假设，进而针对这些假设进行测试和排除。造成低效的故障排查过程的原因通常集中在定位（triage）、检查和诊断环节上，主要由于对系统不够了解而导致。 .

SRE关于稳定治理的工作思考

李姓门徒

05-04

904

SRE（Site Reliability Engineering，站点可靠性/稳定性工程师），与普通的开发工程师（Dev）不同，也与传统的运维工程师（Ops）不同，SRE更接近是两者的结合，也就是2008年末提出的一个概念：DevOps，这个概念最近也越来越流行起来。SRE模型是Google对Dev+Ops模型的一种实践和拓展（可以参考《Google运维解密》一书），SRE这个概念我比较喜欢，因为这个词不简单是两个概念的叠加，而是一种对系统稳定性、高可用、团队持续迭代和持续建设的体系化解决方案；

SRE 故障预案

AllenIverrui的博客

08-09

374

切流最常见的是机器和运营商的切换，这个操作最大的挑战是容量，最大的风险是流量切换后的雪崩，切换前我们要经常考虑的是，B机房的流量是否能承载线上所有的流量，本来还有一半用户都能够正常使用，结果流量切了后，整个系统都雪崩了！大型系统，但凡故障一定会带来用户请求的拥堵，进而流量堆积、抖动，所以从这个角度看，扩容也要先做起来，很多时候堆机器是解决问题最直接的手段，不要讲这么多武德，每分每秒都很宝贵，理性分析等业务恢复了再说。某个机房的网络出现问题了，那么这时候，就可以把原本调度到该机房的流量，切换到其他机房。

一个Google SRE工程师眼中的8点运维原则

weixin_45583158的博客

03-09

394

导读：SRE (Site Reliability Engineering) 应该是每个系统研发和运维团队都应该关注的，最近出版的『SRE: Google 运维解密』一书...

第四篇：稳定性之提升团队潜意识【及时止损、监控报警】

jackl

01-20

3227

稳定性之如何提升团队潜意识植入根【及时止损、监控报警】

一文吃透SRE故障预案6把刀2.0

ss810540895的博客

12-18

288

经过无数次实践证明，绝大多数问题确实可以通过重启短暂解决。所以，故障来的时候，先把理性分析放一边，重启一下试试嘛！！当然，重启也是有套路的，例如是一台一台还是瞬时批量？还有一些服务是不能重启的，有状态、又有状态存储，一重启数据就丢失，进而可能造成整个系统雪崩，坑死人不偿命，所以，哪些可以重启，还是要和研发提前达成一致。总之，

gooleSRE故障指引步骤

weixin_43927188的博客

01-24

314

划分优先级：控制影响范围，恢复服务，同时为根源调查保存现场。事前准备：事先和所有事故处理参与者一起准备一套流程。信任：充分相信每个事故处理参与者，分配职责后让他们自主行动。反思：在事故处理过程中注意自己的情绪和精神状态。如果发现自己开始惊慌失措或者感到压力难以承受，应该寻求更多的帮助。考虑替代方案：周期性地重新审视目前的情况，重新评估目前的工作是否应该继续执行，还是需要执行其他更重要或者更紧急的事情。练习：平时不断地使用这项流程，直到习惯成自然。换位思考：上次你是事故总控负责人吗？下次可以换一个

SRE团队揭秘：应用处理缓慢背后的原因与解决方案

这个案例展示了SRE团队如何通过监控系统收集实时数据进行故障定位，从硬件、操作系统到应用层面进行细致分析。他们不仅要找到问题的表面迹象，还要深入探究背后的根源，如发现是由锁形成的顺序队列导致的性能瓶颈。...