TOP100summit分享实录 | 如何构建一套全链路的故障追踪和故障自愈系统?

本文介绍了三七互娱如何构建一套全链路的故障追踪和故障自愈系统,以应对日益复杂的业务系统和频繁的变更带来的挑战。通过PaaS平台和Trace追踪技术,确保架构质量可控。分享者童传江分享了运维平台的整体架构,包括成本、效率和质量的解决方案,并详细阐述了CMDB数据模型,以及如何通过链路追踪技术解决质量问题。此外,还展示了如何通过函数替换实现PHP链路跟踪,以及链路跟踪在性能统计、应用拓扑和故障定位等方面的应用。
摘要由CSDN通过智能技术生成

 

本文内容节选自由msup主办的第七届TOP100summit,三七互娱运维开发负责人童传江分享的《三七互娱故障追踪和故障自愈系统》实录。

 

分享者童传江在维行业7年工作经验,做过网络管理,做过应用运维,目前专注于运维开发,对于行业所要解决的质量、成本、效率、安全,有完整的交付和实践经验,爱好广泛,热衷于解决疑难问题和分享。

 

编者按:2018年11月30日-12月3日,第七届全球软件案例研究峰会在北京国家会议中心盛大开幕,现场解读「壹佰案例榜单」。本文为三七互娱运维开发负责人童传江老师分享的《三七互娱故障追踪和故障自愈系统》案例实录。

 

在实际运维过程中,因为业务系统越来越复杂,变更越来越频繁,总是存在各种各样监控未覆盖或者以前未知的故障发生。如何构建一套全链路的故障追踪和故障自愈系统,成了质量保证部门的刚需,通过行业标准化的PaaS平台模式和Trace追踪技术,从而实现整个架构的质量可控。

 

今天,我将从两个方面分享故障追踪的实例,第一方面,关于运维平台的整体架构,分别从成本、效率和质量三个维度解决的大致方向;第二方面,关于在链路追踪具体的案例实践。

 

运维平台的整体架构

 

现阶段,关于运维平台有三个大方向的问题需要解决:

 

第一个是成本,有些公司认为这个问题不是非常严重,但公司发展到一定规模,运维成本对于运维部门来说是一个非常大的挑战。像服务器、CDN、宽带的成本可以占到营收的百分之几以上,是一个很大的支出。运维成本核心要解决的是搞清楚具体钱花在哪个方向,并对这些成本问题进行优化。

 

第二个是效率,这是运维面临的主要问题。对于基础设施的交付、中间件的交付,或是代码发布,分解业务需求交付从上到下每一个步骤,并让每个一个步骤变得更快,这是我们要解决的第二个问题。

 

第三个是质量,这个问题很简单,业务是否正常、用户体验是否良好等,如果说有问题,到底哪里出现问题,这是运维部门要保障的。

 

那么,如何解决以上三个问题呢?

 

从技术方面来看,主要划分三个模块,第一个模块,对基础设施的交付;第二个模块,运维开发能力层面;第三个模块,前端接入层面。

 

从基础设施能力方面来看,因为运维的场景不同,现有情况在基础设施层面交付非常繁杂,有些应用需要裸机,我们就要直接进行裸机自动化系统完整交付;有些业务需要自动扩容,我们就要提供IAAS的平台;在基础设施方面,操作系统交付能力上有一个“封装”。将裸机,虚拟化IAAS,容器化IAAS,公有云统一向上封装。核心为提供操作系统能力。

 

从运维层面来看,第一块是CMDB,它包括了资产到应用,以及整个关联关系,所有需要关联到成本或质量的相关数据都存在CDMB中。第二块是任务通道,对所有下层交付的系统实现各种各样的自动化,通过任务通道来执行的,分化细节来看,提供了脚本执行、文件传输、

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值