如何保证互联网平台服务的可靠性和稳定性?

本书《SRE原理与实践》由虎牙科技的SRE架构师张观石撰写,详细阐述了如何建立互联网软件可靠性工程体系,提出将传统可靠性工程的“六性”转化为互联网软件的六种能力。书中结合实际案例,探讨了可靠性设计、观测、修复、保障、反脆弱和管理能力的建设、度量与改进,旨在为中国互联网企业提供SRE的实践经验。
摘要由CSDN通过智能技术生成

如今,如何保证互联网平台服务的可靠性和稳定性成为整个互联网行业面临的难题。谷歌提出的SRE(网站可靠性,本意是软件可靠性工程)方法被业界奉为解决这一难题的经典。

SRE理念是近年来运维领域最重要的变革,影响广泛而深远。从SRE的核心理念出发,运维都是围绕可靠性(Reliability)展开的。“质量、成本、效率、安全”是运维不可或缺的4个要素,其中质量尤为重要,而质量的核心就是可用性,可用性的核心依赖就是可靠性,真所谓殊途同归。

Google最早在2003年就提出了SRE这个概念,历经了近20年的发展,SRE作为保障信息系统平稳运行的重要措施,已逐步在大型互联网公司落地,众多国民级应用背后都有SRE的身影。现有的中文SRE著作几乎都是引进自国外的译著,鲜有中国工程师结合自己的最佳实践来指导大家如何构建SRE工程。

27b6200fdc5a935fb677d9a0571487a2.png

今天推荐一本《SRE原理与实践:构建高可靠性互联网应用》,作者是虎牙科技的SRE架构师张观石,他基于20余年的架构、研发和运维经验,用4年时间反复打磨,代表中国的工程师总结了中国互联网企业的SRE方法和经验。书籍得到了中国SRE奠基人、虎牙科技CEO以及华为、腾讯、阿里、B站、亚马逊等企业的10余位技术专家高度评价并一致推荐。

主要内容

本书尝试系统性地讨论如何建立互联网软件可靠性工程体系。

  • 首先,本书参考传统可靠性工程及软件可靠性工程体系,把传统可靠性工程中的“六性”(可靠性、维修性、测试性、保障性、安全性、环境适应性)转化为互联网软件可靠性工程中的六种能力(可靠性设计能力、观测能力、修复能力、保障能力、反脆弱能力、管理能力)。

  • 然后,本书通过这六种能力把可靠性相关的工作组织起来,比较清晰地描绘出互联网软件可靠性工程的体系全貌,并将六种能力对应到六个工作方向上。

  • 最后,本书深入探讨了各种能力如何建设、如何度量、如何改进等。本书也较为系统地总结了互联网软件可靠性工程的发展过程,参考了可靠性工程方法来讨论当前行业面临的突出问题,初步分析、总结了各种故障的规律,并提出了“可靠性是和故障作斗争”的观点。

【主要特点】

本书具有以下几个特点。

  • 整体性。本书较完整地介绍了互联网软件可靠性工程体系,并结合互联网平台软件的技术特点、业务特点,把互联网SRE相关工作总结为六种能力,帮助工程师快速理解SRE体系全貌。

  • 重视度量。书中对各种能力都进行了定性与定量的评估。度量才能真正了解现状,才能推动改进,才能见到改进的效果。

  • 从原理出发。本书较为全面地总结了互联网平台软件的故障特点和故障规律。研究规律是我们学习SRE相关工作的必经之路。通过研究规律,我们不仅可以积累经验,而且能更深刻地了解故障的本质。

  • 本书在写作时引用了大量虎牙直播的实践案例,这些案例对一些中小型平台建设应该有一定的参考价值。


【读者对象】

  • 互联网行业运维工程师、研发工程师、架构师

  • 关注软件系统可靠性的管理者

  • 关注软件可靠性的研究者、计算机专业师生等

f33a15e9b3a1bad183646897dd71c80d.jpeg

好了,本次继续送书3本。

留言区留言,点赞前三分别赠送一本,截止时间:本周五下午6点。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值