每年的央视春晚直播,是对爱奇艺直播链路上所有技术团队的一次大考。央视春晚除了会引起服务接口QPS的暴涨,也会对CDN带宽和核心机房带宽带来瞬间的压力。此外,直播对线上故障处理时间的要求特别高,因此直播链路上的各个环节都要做好充分的高可用性保障。
整个直播链路,大致可以分为信号编码与切片处理、CDN分发与回源、节目播放请求处理、视频切片下载与播放四个环节。本文分别介绍这四个环节在2024央视春晚中的稳定性保障实践工作。
01
信息编码与切片处理
直播云作为直播核心技术支持,负责直播编码、RTMP传输、切片打包以及切片上传,这一连串的技术流程确保了直播内容的流畅、清晰与稳定;为跨年及春晚系列直播的技术保障与呈现提供高质量的画质和稳定可靠的信源。
作为影响画质的首要因素,此次春晚系列直播编码环节进行了全面升级。我们不仅支持HDR(高动态范围)信源输入,还成功生产出HDR运营流,使得色彩层次更加丰富,对比度与亮度范围显著拓宽,为观众带来了前所未有的视觉盛宴。此外,通过对HDR信号进行智能转码生成SDR(标准动态范围)运营流,即便是不具备HDR播放条件的设备也能享受到远超以往的画质提升。更值得一提的是,引入4K超高清实时编码能力,保证了终端显示的每一帧都细腻逼真,借助帧绮映画技术,让春晚的每一个细节生动展现。
在保障直播稳定性方面,我们深知直播编码信源的稳定性对直播效果至关重要。因此,我们采用了一主四备共五个信源的方式,以确保信源的稳定可靠。这五路信源分别是:两路卫星信号,通过Anystream技术转码为4K HDR PQ和SDR格式;两路CCTV 4K网络信号,提供HDR HLG格式,并实时转换为PQ和SDR格式;以及一路来自演播室的CCTV1高清信号与网络CCTV 4K信号。这种多元化的信源配置,有效避免了因单一信源故障导致的直播中断问题。
最终,在春晚直播的实际呈现中,我们取得了显著的成果。央视春晚首次在TV端呈现了4K帧绮映画MAX,为观众带来了前所未有的视觉盛宴。而在央视元宵晚会上,我们更是首次在多个前端同时呈现了4K帧绮映画以及1080p50高帧率内容,让观众在享受高清画质的同时,也能感受到高帧率带来的流畅体验。在质检评测中,我们的直播技术在静态画面清晰度上位列第一梯队,充分展示了我们的技术实力。而在舞台灯光效果复杂的场景中,爱奇艺的动态效果表现稳定,与竞争对手相比具有明显优势;春晚系列直播全程编码稳定无任何信源异常,为流畅稳定的直播体验提供了坚实基础。
02
CDN分发与回源
内容分发网络(Content Delivery Network, CDN)作为超大规模的分布式系统,已经成为互联网的基础设施,在内容动态加速,静态加速以及安全防护方面发挥重要作用。CDN的直播分发,可以理解成一棵树,直播流就是树的养分,养分从树根流向叶子,CDN做的事情就是保障树的养分快速分发到所有的叶子。在春晚直播项目中,CDN的主任务就是将直播分片,快速、稳定的分发到边缘节点,供用户播放使用。
下图是CDN分发回源架构图,我们将L1、L2、PROXY这3层称为直播源站,即根节点。将商业CDN、COC(Cache On Cloud)、自建CDN称为边缘节点,即叶子节点。
在CDN的整个分发体系中,直播源站的稳定性是重中之重,如果直播源站出现问题,会导致全网播放卡顿、播放失败,所以保障直播源站的高可用,一直是直播CDN的工作重心。
源站可用性保护(Origin Shield)
源站高可用
高可用由多层次组成:
直播源站软件
软件组成的服务/节点
服务/节点组成的集群
各个集群组成的整体源站
服务/节点和集群依赖的网络
针对直播软件ATS(Apache Traffic Server),通过线上卡顿分析定位,故障分析,解决了一些关键性问题,比如edns模块导致的5XX不服务问题,以及长时间运行时导致回源内存泄露问题。
在源站L1、L2、PROXY各层中,均是多机房部署,避免单点故障。当遇到节点故障时,需要做到故障节点自动摘除,无需人工参与。同时准备好各机房内网专线的灾备能力、冗余带宽,确保不在内网回源上产生瓶颈。
针对商业CDN供应商,提供域名形式的源站,源站域名每个地区均不少于4个源站PROXY,且源站的TTL由默认的600s降低为120s,结合拨测+主备替换能力,可以在小于2分钟内自动替换故障源站,减少源站故障时对商业CDN回源的影响。
COC作为CDN上云的Cache集群,通过专线连到源站Proxy进行回源,因为COC会承载直播流量高,除了对此专线特别保障外,还在龙年春晚前,通过云上SNAT,建立了COC的公网备用回源链路,并且在春晚时启用这条链路,提高COC回源的容错性。
CDN供应商回源隔离
作为multi-CDN的直播架构,面对春晚大型直播,为了避免某一商业