SRE (site reliability engineering)
SRE是指Site Reliability Engineer (网站可靠性工程师)。他是软件工程师和系统管理员的结合,一个SRE工程师基本上需要掌握很多知识:算法,数据结构,编程能力,网络编程,分布式系统,可扩展架构,故障排除。
Site:
主导生产环境
与业务共同成长
对最终用户负责
Reliability:
确保业务连续性
确定、监控SLO
代码化、自动化、无人化
Enginerring:
码农
监控系统中毒用户
对未来负责
SRE的七层质量:
1.crash with new data loss, old data corruption, destruction 因崩溃而造成的新旧数据丢失
2.crash with new data 新数据丢失
3.crash without data loss or corruption 崩溃不会造成数据丢失或损坏
4.prevent crash with no or very limited service,low quality 通过有限制的服务防止崩溃和低质量
5.partial or limited service,with good to medium quality 部分或者限制级服务具有很好的媒介质量
6.failover with significant delay,near full quality service 对显著延迟故障转移提供全质量服务
7.failover with minimal delay,near full quality service 对最小延迟故障转移提供全质量服务