SRE是什么
SRE(Site Reliability Engineering)可以翻译成网站可靠性工程师,是一种关注于企业服务的可靠性的工种。SRE这一概念是由Google提出,有效解决公司中存在的运维上的问题,以及研发团队和运维团队的沟通问题。同时,伴随着国内互联网市场的不断饱和,各大互联网企业越来越关注于企业服务以及服务的稳定性的现状,越发受到互联网企业的欢迎和引入。
为什么引入SRE
首先,之所以Google会提出SRE的概念,是因为传统的研发部门和运维部门之间存在隔阂。研发部门希望能够快速使用新的技术并且能够快速将新功能进行发布,然而运维部门对于已经可靠稳定的系统不想再调整和改变,所以研发部门能够按照运维部门的要求来进行调整。结果造成彼此之间对于项目的整体发展发生分析,产生了部门之间沟通方面的问题。所以归根到底,这是一个DevOps相关的问题。SRE是DevOps的一种实践和方法论。SRE就在开发端(Dev)和运营端(Ops)中间架设稳定的桥梁。
SRE工程师本身就是软件工程师(Software Engineer),这些人有这样的特点:
- 通过软件开发的思想进行运维的工作。软件工程师喜欢自动化,希望通过代码解决手动工作
- 同时作为软件工程师的一种,SRE也相信自动化能够解决运维端出现的各种问题。
所以说,SRE是一群软件工程师通过软件开发的思维模式去解决运维方面的问题,他们存在的优势是:
- 作为一个明白软件工程师语境,明白如何同软件工程师沟通的一群人,他们能够帮助软件工程师理解运维存在的相关问题,一定程度上解决了