哔哩哔哩“2021.07.13 我们是这样崩的”报告的学习-1
这份报告是我学计算机两年来第一次真实看到大厂的员工到底在干什么。出现了很多专有名词,以及当前最先进的互联网企业的应用究竟是用什么语言,以及出现错误的处理过程。(还有加班到深夜的情况,可以理解出了事故再不加班就不对了)
原报告:2021.07.13 我们是这样崩的 - 哔哩哔哩 (bilibili.com)
尽管一知半解,还是把一些名词以及能搜索到的知识做一个笔记,万一以后就用到了呢。
2021年7月13日22:52,SRE收到大量服务和域名的接入层不可用报警
这里出现了第一个名词SRE。有关这个职业,有一本专门的书籍**《Site Reliability Engineering 》**是做的系统性的阐述。
下图文引用内容为知乎《SRE 是什么,不是什么》
SRE,Site Reliability Engineer,网络可靠性工程师。是Google创造的一个专有职业。网上可以搜索到相关job description。
(看得懂,但是只能看得懂一点点)
SRE 的首要工作任务是保证 SLA。(专有名词的解释里面套专有名词是吧)
SLA,service-level agreement,一般指的是系统的功能指标,比方说系统可用性(availability)达到 99.99%;对于 95% 的请求,响应延迟(latency)低于 200 毫秒等等。
但是根据评论区来看,上文只是对国外的情况进行了阐述,下文是国内SRE的具体职能。
Google SRE的工作主要包括但不限于如下:
- 基础设施容量规划
- 生产系统的监控
- 生产系统的负载均衡
- 发布与变更工程管理
- on-call(轮值) 与 Firefighting(紧急故障救火)
- 与业务团队协作,共同完成疑难问题的处理
而在国内,非常多的SRE部门与传统运维部门职责类似,本质来说负责的是互联网服务背后的技术运维工作。区别于传统的运维SRE,如何在业务研发团队落地SRE,我们做了一年多的探索与实践,笔者认为业务团队SRE的核心是:以软件工程的方法论重新定义研发运维,驱动并赋能业务演进。
关于SRE的具体职能,可在接下来的报告中见到部分。
基于报警内容,SRE第一时间怀疑机房、网络、四层LB、七层SLB等基础设施出现问题,紧急发起语音会议,拉各团队相关人员开始紧急处理
这里的四层LB和七层SLB是专有名词,(我一开始读的时候我还以为是位于B站四楼和七楼的什么东西),我没在网络上找到这些东西的具体定义。
根据现在我的理解,这里所说的层(当然不可能是具体楼层)是计算机网络的层次结构。
四层是运输层。
七层是应用层。
LB和SLB是负载均衡。关于负载均衡可见知乎文章《什么是负载均衡?》 - 知乎 (zhihu.com)文章图文并茂还是不错的。
暂时更到这里,有时间会继续修改并且继续逐步学习的。