-
研发(Dev)与运维(Ops)分离导致的问题
-
直接成本:
随着产品及项目增多,相应人员线性增加。
-
间接成本:
研发与运维团队背景各异,技术能力与工具使用习惯存在差距,工作目标不同; 研发与运维团队对产品可靠程度要求不同,具体执行某项操作的危险程度评估与技术防范措施不同。
以上逐渐演变成目标与方向上的分歧及形成沟通问题,容易出现信任、尊重等问题
-
-
如何减少更新故障—以下两点均不是最优
- 运维:给研发制定严格上线流程;
- 研发:不再大规模更新,而是转为功能开关调整、增量更新、补丁等方式绕过各种流程。
-
SRE方法论:
SRE团队承担以下几类原则:
- 可用性改进
- 延迟优化
- 性能优化
- 效率优化
- 变更管理
- 监控
- 紧急事务处理
- 容量规划与管理针对以上内容制定一套完整的沟通准则和行事规范
-
事后总结
所有产品事故都应该有事后总结,无论有没有触发告警;
如果一个产品事故没有触发警报,它的总结意义更大它揭示监控系统存在漏洞,事故总结应该包括:事故发生、发现、解决的全过程,事故的根本原因,预防或者优化的解决方案。
-
服务可靠性目标需要考虑的方面
- 基于用户使用习惯,服务可靠性要达到什么程度用户才会满意?
- 如果这项服务的可靠程度不够,用户师范有其他替代选择?
- 服务的可靠程度是否会影响用户对服务的使用模式?
-
监控系统
监控系统是SRE团队监控服务质量和可靠性的一个主要手段
一个监控系统应该有三类输出:
- 紧急警报 alert 必须立即处理
- 工单 ticket 可延后处理
- 日志 logging 仅收集相关信息 -
应急事件处理
MTTF:平均失败时间
MTTR:平均恢复时间任何需要人工操作的事情都只会延长恢复时间,尽量减少人工干预,通过事先预案并且将最佳方法记录在运维手册。
-
变更管理
变更管理的最佳实践是使用自动化完成以下项目:
1. 采用渐进式发布机制 2. 迅速而准确检测到问题的发生 3. 安全迅速的回退改动
-
效率与性能
高效的资源利用率需要:用户需求、可用容量、软件资源使用率来驱动
SRE Google运维解密-第一章
最新推荐文章于 2023-03-20 14:49:37 发布