6 月 10 日,又拍云 Open Talk | 2018 音视频技术沙龙·深圳站 顺利落幕,来自虎牙的直播运维研发架构师张波在沙龙上做了《基于CDN推流日志的主播上行实时监控及其自动化解密》的分享。虎牙直播是中国领先的互动直播平台,作为“游戏直播第一股”,是音视频技术的典型应用企业。
张波目前主要负责虎牙直播运维体系的建设,针对 Web 和后台类程序的发布、监控、运维自动化相关的运维系统进行设计和开发。本次分享中,张波结合在一线工作中的实践,介绍虎牙直播针对主播推流在 CDN 环境下的优化技巧,以及实践过程中碰到的各种坑。
2018 音视频技术沙龙·北京站报名链接(7月28日):http://www.huodongxing.com/event/1448084358500
以下是分享内容:
虎牙直播作为游戏直播平台,拥有数百个产品线,同时在线主播数高达数万,因此虎牙接入了多家 CDN 厂商。
体量这么大的主播上行量通过 CDN 端推流日志如何做到自动监控,异常及时发现,业务如何通过系统准确定位?
用户侧、网络侧、CDN 运营商侧等引起的故障,如何做到故障分钟定位?
先与用户发现定位系统问题瓶颈,如何用数据指引 CDN 提升服务质量呢?
这次分享,我们就来聊聊如何解决这些问题。
首先是主播监控手段,最直接、最低延时的监控手段是观察用户弹幕喊卡。
当弹幕开始喊卡时,开发会上系统查看端上上报的监控数据来定位问题。但是仅仅依靠服务端数据,是很难确定问题是发生在哪里的,线路、客户端、CDN、IDC 都有可能出现问题。
直播出现问题的原因有很多,我们要如何准确定位业务问题呢?
一般情况下,当虎牙主播直播出现问题后,开发会让运维提供 CDN 服务器端数据,来定位问题,再由运维联系 CDN 运营商排查问题,最后由 CDN 厂商解决问题。
除此之外,虎牙还有其他的监控方案:
- 第三方拨测监控;
- 端上报数据监控(主播端上报,用户端上报);
- 弹幕喊卡监控
- 服务端数据监控;
- 机房网络监控。
CDN 侧健康管理
面向用户体验端到端的健康管理,范围比较大。本次分享主要讲一下 CDN 侧的健康管理,比如判断 CDN 是否存在问题?
上图系统的核心功能主要有:
- 建立应用服务监控视图;
- 关注应用性能;
- 多段、多层数据关联分析;
- 了解用户感知;
- 了解应用最终交付状态;
- 了解应用对业务的影响;
- 端到端覆盖应用路径;
- 追踪应用服务质量;
- 快速诊断和定位故障。
图中也显示了各个线路的质量情况,虎牙每 20 秒检测一个节点情况,而 CDN 的线路图,监控时效性是一分钟延迟,因此全网 CDN 上行质量出现问题的话,会在一分钟内发出告警。同时全网的出现卡顿的主播在卡顿监控中可以试试看到,并实现定位上行卡顿原因,迅速排出是否是厂商线路问题或运营商线路问题。