SRE是什么,职责是什么
Site Reliability Engineer (网站可靠性工程师)
职责:高可用、SLA、性能、效率、变更管理、监控、应急处理、容量规划
指导思想
风险管理、SLA、个人事务、监控、自动化运维、发布管控、简单化
1:SLA
成本考虑,SLA带来的收益与成本。
如何度量?HA=正常运行时间/总时间,=成功数/总请求数
slo定义原则
具体落地
监控有效性、oncall 机制建立
故障排查手段
紧急事务响应
事故管理追踪、总结
测试
负载均衡、过载管理
连锁故障
分布式系统、提供可靠性
分布式周期任务
读写一致性处理