| 导语 :你是否也曾被“快点儿吧,等到花都谢了”洗脑,为又爱又恨的欢乐豆决战到天亮,为何欢乐斗地主能风靡全国,经久不衰,还一直能平稳流畅运行?其背后究竟有哪些运维小妙招?可让整体研运效率显著提升,节省30%+人力成本?.....
作者简介:Leehom,腾讯游戏专家开发工程师,负责腾讯欢乐游戏大规模分布式服务器架构。有十余年微服务架构经验,擅长分布式系统领域,有丰富的高性能高可用实践经验,目前正带领团队完成云原生技术栈的全面转型。
背景
基本信息:
客户名称:腾讯欢乐斗地主
行业:IT服务/软件 游戏行业
涉及产品:腾讯云 Prometheus 监控服务、Grafana 可视化服务、容器服务
联系邮箱:[email protected]、[email protected]
客户介绍:
2008年,欢乐斗地主横空出世。是一款由腾讯公司-欢乐游戏工作室开发和运营的在线棋牌小游戏。在整个国内棋牌游戏领域,《欢乐斗地主》则一直是探索品类边界的领头羊,腾讯游戏家族里普及年龄最广的游戏产品。据 GameLook 了解,自 App Annie 在 2017 年公布全球手游 MAU 数据以来,《欢乐斗地主》一直是中国区全品类手游 MAU 年度前五。目前累计用户数已过亿,其活跃用户长期处于一个较高水平。后台采用分布式微服务架构,承载着数百万 DAU ,在这种大规模平台化的后台系统和复杂多样的业务架构下,给监控运维带来了极大的挑战。
实践背景:
云原生经历了7年多的发展,已经进入了大规模实践阶段,应用极其广泛,互联网、金融、电信、汽车等各大行业均有其身影。近年来,也越来越多的腾讯业务走向云原生。腾讯欢乐斗地主也深入参与其中。
欢乐斗地主业务全面上云后,服务全量部署于 腾讯云容器服务 TKE 之中。上云后,旧的监控方案已无法适用。众所周知,Prometheus 是容器场景的最佳监控工具。但是自建 Prometheus 对于目前项目运维人力,显得成本略高。同时也容易出现性能瓶颈。经过综合考虑,团队决定采用 腾讯云Prometheus 监控服务(TMP) 作为监控系统,抓取并存储指标。本文将分享监控体系实践的一些阶段性经验感悟。
实践效果:
在复杂的游戏业务架构下,经过细致分析和基于云原生技术的持续重构演进,深度结合 K8s 以及 Prometheus 监控服务,最终实现游戏业务场景下架构平稳平滑运行。对于业务模块的可靠性、可观测性、可维护性大幅提高,整体研运效率提升十分明显,每月可有效节省超过30%的人力成本。