虎牙数万主播同时在线直播的秘密,CDN推流日志上行实时监控

6 月 10 日,又拍云 Open Talk | 2018 音视频技术沙龙·深圳站 顺利落幕,来自虎牙的直播运维研发架构师张波在沙龙上做了《基于CDN推流日志的主播上行实时监控及其自动化解密》的分享。虎牙直播是中国领先的互动直播平台,作为“游戏直播第一股”,是音视频技术的典型应用企业。

张波目前主要负责虎牙直播运维体系的建设,针对 Web 和后台类程序的发布、监控、运维自动化相关的运维系统进行设计和开发。本次分享中,张波结合在一线工作中的实践,介绍虎牙直播针对主播推流在 CDN 环境下的优化技巧,以及实践过程中碰到的各种坑。

2018 音视频技术沙龙·北京站报名链接(7月28日):http://www.huodongxing.com/event/1448084358500

以下是分享内容:

虎牙直播作为游戏直播平台,拥有数百个产品线,同时在线主播数高达数万,因此虎牙接入了多家 CDN 厂商。

体量这么大的主播上行量通过 CDN 端推流日志如何做到自动监控,异常及时发现,业务如何通过系统准确定位?

用户侧、网络侧、CDN 运营商侧等引起的故障,如何做到故障分钟定位?

先与用户发现定位系统问题瓶颈,如何用数据指引 CDN 提升服务质量呢?

这次分享,我们就来聊聊如何解决这些问题。

首先是主播监控手段,最直接、最低延时的监控手段是观察用户弹幕喊卡。

当弹幕开始喊卡时,开发会上系统查看端上上报的监控数据来定位问题。但是仅仅依靠服务端数据,是很难确定问题是发生在哪里的,线路、客户端、CDN、IDC 都有可能出现问题。

直播出现问题的原因有很多,我们要如何准确定位业务问题呢?

一般情况下,当虎牙主播直播出现问题后,开发会让运维提供 CDN 服务器端数据,来定位问题,再由运维联系 CDN 运营商排查问题,最后由 CDN 厂商解决问题。

除此之外,虎牙还有其他的监控方案:

  1. 第三方拨测监控;
  2. 端上报数据监控(主播端上报,用户端上报);
  3. 弹幕喊卡监控
  4. 服务端数据监控;
  5. 机房网络监控。

CDN 侧健康管理

面向用户体验端到端的健康管理,范围比较大。本次分享主要讲一下 CDN 侧的健康管理,比如判断 CDN 是否存在问题?

上图系统的核心功能主要有:

  1. 建立应用服务监控视图;
  2. 关注应用性能;
  3. 多段、多层数据关联分析;
  4. 了解用户感知;
  5. 了解应用最终交付状态;
  6. 了解应用对业务的影响;
  7. 端到端覆盖应用路径;
  8. 追踪应用服务质量;
  9. 快速诊断和定位故障。




△ 虎牙部分监测系统

图中也显示了各个线路的质量情况,虎牙每 20 秒检测一个节点情况,而 CDN 的线路图,监控时效性是一分钟延迟,因此全网 CDN 上行质量出现问题的话,会在一分钟内发出告警。同时全网的出现卡顿的主播在卡顿监控中可以试试看到,并实现定位上行卡顿原因,迅速排出是否是厂商线路问题或运营商线路问题。

CDN 端到端的应用性能管理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值