“1-5-15”原则：中国联通数字化监控平台可观测稳定性保障实践

TakinTalks稳定性社区

于 2023-11-03 16:19:43 发布

阅读量777

点赞数 1

文章标签：容量治理

本文链接：https://blog.csdn.net/shulieTech/article/details/134205815

版权

一分钟精华速览

“只知道系统有问题，但是找不到问题到底出在哪里”，这几乎是大家都面临过、或正在面临的问题。用户在投诉，但是我的指标都是正常的，到底是哪一环出问题了？本文详细介绍了中国联通在智能运维领域的应用实践，从架构师视角讲述了如何通过构建稳定性保障体系和数字化监控平台，来支撑庞大分布式系统的端到端故障处理能力，做到故障1分钟发现，5分钟定位，15分钟快速抢通。 file 作者介绍

file

中国联通软研院副总架构师——吴天昊 TakinTalks稳定性社区特邀讲师。中国联通软件研究院副总架构师，主导中国联通数字化监控平台的整体架构设计及演进，并负责中国联通数字化生产运营保障体系的建设与落地工作。致力于完善“平台+应用”生态体系，打造联通集团自动化生产和智慧化运营的生产运营平台。

温馨提醒：本文约7000字，预计花费10分钟阅读。

后台回复 “交流” 进入读者交流群；回复“1019”获取课件资料；

背景

作为中国的三大通信运营商之一，中国联通可以说家喻户晓。每次大家去营业厅办理业务，或者在手机上交话费、月租的扣除等等，所有这些都是由中国联通软件研究院（以下简称“联通软研院”）建设和维护的系统在背后默默支撑。这套系统我们称之为cBSS（Center Business Support System），也就是集约化业务系统，中国联通也是唯一一个全国31省份的业务系统集中化的运营商。

集约化带来的好处无需赘述，但同时也带来了不少挑战——系统庞大，运维难度自然提升。作为联通软研院的副总架构师，我负责联通软研院数字化生产运维保障体系的建设和落地，包括数字化监控平台的整体架构设计及演进。我们的目标是构建一个“平台+应用”的生态体系，共同打造联通集团自动化生产和智慧化运营的工作台。

而数字化转型意味着系统的重构和升级，也意味着新的运维问题将如影随形。那么，中国联通面临的问题和挑战到底有哪些？以及如何应对？接下来一起探讨，中国联通如何通过建设监控平台，实现智能运维，提升系统稳定性。