随着视频会议、视频直播的流行以及未来AR/VR业务的发展,低延迟视频传输服务被广泛使用,但视频质量(QoE)还不能满足用户要求。那么近年来新兴的AI神经网络是否能为视频传输带来智能化的优化?今天LiveVideoStack大会北京站邀请了来自北京邮电大学的周安福教授,为我们分享关于使用强化学习方法进行低延迟视频传输的相关研究成果 。
文/周安福
编辑/LiveVideoStack
大家好,我是来自北邮的周安福,非常高兴有机会和大家分享我们的工作。由于我身在学术界,所以还请各位工业界同仁多提宝贵意见。我本次报告的标题为:强化学习驱动的低延迟视频传输研究。
在正式开始前想先简单提一句,自1986年至今,在四十多年的时间里,视频传输拥塞控制一直是从业者们面临的一个经典问题。随着近年来新兴AI产业的发展与升级,我们自然希望利用人工智能方法对视频传输工作进行优化,但要如何才能使它们结合得更好?我们的整个研究过程并不是一帆风顺的,遇到了很多问题困难,此次主要将针对这些问题和我们提出的解决方案和大家进行分享,力求使强化学习方法真正为视频传输带来帮助,对产业界应用带来助益。
-01-
背景与问题
此次报告将分三个部分,首先快速介绍背景与问题。我们知道,随着实时视频和实时交互视频业务的持续增长,视频通话、视频会议、VR和4K全息视频、机器人远程操作等应用场景可能占到了当今互联网流量的80%以上。虽然业务量越来越大,但视频质量却不能令人满意。可能大家都曾遇到视频电话卡顿、画面质量低等问题。在此背景下,我们希望了解在实际的商业网络中,低QoE问题究竟有多严重。
我们与淘宝直播合作开展了现网测量研究。测量包括57个国家共749个城市,测量的会话场次和会话时间数量级达到百万,大量的数据集被收集。
同时我们也搭建了一些实验平台和评测系统辅助进行分析,具体情况见上。
最终的分析结论为:如果将丢包1%或RTT300毫秒作为低QoE标准,那么测量数据中约20%的会话存在低QoE问题,即使基础的网络条件良好但视频质量仍然不佳,情况类似于道路修得宽但汽车跑得慢,想必只能是司机技术的问题。
那么要如何解决该问题?解决的关键在于传输方法,我们发现TCP、UDP等传输协议一般均是基于经验手工设计,在现代网络中存在带宽估计过于保守、无法适应网络的瞬时变化、在新的网络条件中缺乏灵活性等问题。根本原因在于实时视频场景对网络的带宽要求越来越高,对延迟要求越来越低,同时现代互联网变得高度异构和动态,难以预测。