腾讯海量存储与CDN的自动化运维

9月14-15日,GOPS全球运维大会上海站圆满举行,为期两天的运维盛宴,为各位运维人带来了相互交流和学习的绝佳平台,来自腾讯技术工程事业群(TEG)架构平台部的裴泽良给大家带来了「腾讯海量存储与CDN的自动化运维」的主题分享。我们同步了嘉宾现场沙龙分享视频(内含高清PPT),请点击下方「腾讯技术课小程序」卡片即可查看:

同时附上整理好的演讲稿:

裴泽良,来自腾讯技术工程事业群的架构平台部,从事运营系统相关的建设工作超过8年,参与建设了腾讯云CDB、腾讯海量文件存储系统TFS以及腾讯CDN服务的运营体系从初级到较为完善的各个阶段,目前专注于提升腾讯云上直播、点播、静态文件CDN、COS等业务的运营质量,以及建设更为高效与安全的自动化运维体系。

腾讯架构平台部是做什么的

腾讯架构平台部提供了微信QQ聊天的图片,朋友圈图片,QQ音乐里面的歌曲,腾讯游戏,应用宝里面的app的下载,腾讯云的COS对象存储,点播,直播,以及腾讯视频的点播,直播,这些产品背后的海量存储与CDN服务都是由我们部门提供的。

目前总存储量超过2EB,储备带宽超过100Tb,使用的服务器超过了20W台,建设了1000多个OC机房,我们提供的服务总流量占据了腾讯90%以上的出口流量,而我们的运维人员就只有50人,这里要解释下,我们的背后还有其他兄弟团队在支撑,比如机器的采购维修、机房的建设,而对于我们托管的服务本身的运维人员就只有50人。

可以透过发电站来形象的了解我们海量服务的基础运维,发电站的日常运维需要具备强有力的监控能力,能够实时监测到各种指标有没有异常,比如当前总输出电压值、电流值、发电量,而且日常中还需要对生产环境做各种操作、调整,比如装填各种原料、调整发电量、维修零部件,我们日常运维同样有版本配置变更,有维修故障机,当然了安全运维是根基,否则一旦出事,后果不堪想象,对于发电站来说,下游的工业、居民全停电了,会带来巨大的经济损失,对于我们来说,用户数据丢失找不回来了,会有巨大的信任危机。形象的来看,我们的运维挑战就是监控体量大告警多,对现网变更非常频繁,安全要求高。

这个是我们的自动化运维体系,可以分为三大部分来看,基础系统,像配置系统、设备资源管理系统、资源预算核算计费系统,通用运维能力的系统,像监控、变更、PAAS运维平台、质量测试、流程,业务专用的运维系统,像相册运维系统、COS运维系统、VOIP运维系统。我今天分享的就是中间这块通用运维能力方面的。对于我们来说,所有这些系统的建设就是为了保障业务质量、控制业务成本的。

海量业务的监控

大家有没有经常遇到过业务或用户投诉过来“我朋友圈看不到图了,什么情况”,然后我们的人员一脸迷惑“好像一切正常,我没收到告警呢”,也就是监控不全的问题,然后我们在监控系统上面各种查找数据,想看下到底出什么问题了,结果点了“查询”按钮,系统一直提示“请等候,正在万分努力查询中”结果就是半天出不来数据,也就是系统性能低的问题,好不容易看到视图了,随即来了个疑问,总共有上千台机器在上报失败数据,到底是哪台机器上报了大量的失败数据呢?又是一脸迷惑“找不到呢”,也就是系统不具备多维下钻分析的能力,找不到来源。下面看看我们是怎么解决的。

这个是监控总览,我主要会介绍一些与一般常见监控系统不一样的地方,主要体现在监控上报、即时计算、异常自动发现、自动分析这几方面。

这个是我们的上报模块,上报端通过内网或外网发数据到服务器,我们监控的数据主要分三类:结构化的,也就是时序数据,详细日志的,也就是程序流水数据,自定义数据,业务借助监控上报通道上报的自己需要的特定的数据,监控系统最关心的当然是结构化的时序数据了,像流量、请求数、延时都是这类数据。

我们在上报中比较特别的一点就是在上报端,业务逻辑每一次的用户请求处理相关的数据都会调用监控上报API,比如业务逻辑中每请求一次后端系统,就会把调用延时、主调接口、被调接口、成功还是失败、错误码等数据调用监控上报API上报到监控系统中,在上报API中我们会按秒把同一类型的多条数据汇聚成一条,然后上报给本机的监控Agent守护进程,在Agent中会把秒级数据直接发给监控平台,就形成了秒级监控,同时Agent也会把同类型的多个秒级数据点汇聚成一个分钟级的数据,然后上报给监控平台,从而形成分钟级告警,目前每分钟有6亿的分钟级结构化数据上报。

总结一下,我们在同一个上报通道中实现了秒级、分钟级、详细日志、业务自定义数据等多种上报能力。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值