Concerto: 针对于移动实时视频通信的编解码器和传输层协调设计系统

论文提出了一种名为Concerto的机器学习算法,用于解决移动视频通信中编解码器和传输层的不协调问题,以提升QoE。Concerto通过模仿学习,根据历史数据预测最佳视频码率,减少卡顿并提高视频质量。在Taobao-Live上的实验证明,Concerto能有效跟踪网络带宽变化,其性能优于WebRTC、Salsify和RL-V等现有方案。
摘要由CSDN通过智能技术生成

本文出自论文 Learning to Coordinate Video Codec with Transport Protocol for Mobile Video Telephony,设计出一个基于数据驱动的模仿学习算法Concerto,为编解码器和传输层决定最佳协同码率,从而最大化QoE。

本文作者在Taobao-Live(移动视频服务)上进行大范围测量比较,分析得出当前的应用层视频编解码器和传输协议仍然有较高的不协调性,导致了较低的QoE。对此,作者提出了一个基于机器学习技术的框架Concerto来解决此问题。它并没有直接对传输层的网络容量进行估计,而是提取出编解码器和网络动态的一些高维度特征,在不导致网络拥塞的情况下决定未来视频帧的最高码率。这里首先使用一个专门的模仿学习算法利用trace数据去训练Concerto,使得从历史经验中去学习。然后将Concerto合并到Taobao-live中,在实验对比中该算法在多种场景下提高了视频质量,并且减少了视频的卡顿时间。

一、简介
  1. 为了提高视频通信QoE,大量研究主要针对两个方向,一个是现代传输层协议来准确估计网络路径随时间变化的端到端容量,另一个是视频编解码技术,例如H.264, VP8, H.265, VP9,提供更多的不同帧质量和帧率的码率选择,从而来满足网络容量的即时变化。编解码器通常以接近传输层估计的最新带宽的平均码率来生成压缩视频帧,但这样的交互方法一般由于以下2种原因而失败:(1)传输层和应用层的优化目标一般不同,编解码器做出的码率决策可能过时从而导致容量利用率不足或者超限,并且频繁的视频码率变化也会影响观看者体验;(2)视频通信的突发应用层流量模式(间歇性逐帧传输)可能会误导传输层对网络容量的预估,并导致网络利用率低的恶性循环。
  2. 本文这里提出了Concerto,一个基于机器学习的视频码率自适应方法,来最大化视频通信的QoE。通过建立一个深度模仿学习模型来探索视频码率自适应过程。在训练阶段,Concerto通过模仿学习方法学会去映射当前状态(比如传输层的历史丢包或延迟,以及在编解码器层的发送/接收比特率)到一个目标码率。在真实运行阶段,训练好的Concerto自主选择合适的码率。这里码率作为编解码器和传输层的共同目标,从而消除不协调问题。另外,当网络路径被认为高度可变时,Concerto将故意保守从而确保视频质量平稳或者避免过度。另一方面,当检测到上述恶性循环时,Concerto会变得敏感,通过提高码率来打破循环。
  3. 在模仿学习模型中,这里通过使用传统的交叉熵损失函数来惩罚带宽超限而不是未充分利用,同时将视频平滑度需求形式化为一个正则化函数。本文主要有以下三个贡献:(1)从规模和深度上分析移动视频通信服务,量化性能差的根源;(2)设计了Concerto来自主生成自适应视频码率决策;(3)对其进行实现、部署和评估。
二、移动视频通信技术介绍
  1. Taobao-Live框架:实时视频内容从主播移动手机进行获取,然后推流到相关的MCU(多媒体控制单元),接着分发给观众。在每个caller-to-MCU会话路径中,客户端caller每隔3s记录编解码器码率,GCC带宽预估和其他准则,然后打包发给MCU,MCU作为视频接收者每隔1s记录吞吐率,丢包率和延迟,所有的记录都被存储在一个分布式数据库中。
    框架图

  2. Taobao-Live的流量输出主要依赖于两个组件:(1)传输层的GCC,它可以保证较低的包延迟和接近于0的丢包,但传输实时视频流量时性能会明显下降;(2)应用层的视频编解码器。

  3. 视频通信性能差的原因:(1)视频编解码器不能生成匹配GCC网络容量预测的准确码率,一个视频码率自适应算法不仅应当考虑网络状态,还要考虑编解码器的编码码率变化情况;(2)GCC背后的编解码器自适应延迟。(3)视频间歇性流量模式干扰了GCC的带宽估计,间歇性流量模式首先导致GCC更新不频繁,进而导致吞吐率降低,从而进一步减少了更新次数。
    视频通信对比

三、设计
  1. 系统架构:Concerto是一个机器学习模型,来增强编解码器和传输层的交互性能。它的输入信息包括历史传输层信息(丢包率、包延迟间隔),还有编解码器层信息(发送端的视频码率,来自接收端的吞吐率反馈),输出信息为下一个时间间隔 Δ \Delta Δ的最优码率 B B B。在训练阶段,模仿学习IL模型学习来自不同会话的特征,通过模仿了解真实网络状态的专家,迭代监督学习来自动生成合适的码率。

    image.png
  2. Concerto模型:一个agent和状态空间 S S S进行交互,在任何离散时间t,通过采取一个行为 a t ∈ A a_t\in A atA,来获得奖励 r t r_t rt。该模型的最终目标是生成一个最优state-action映射策略 π ∗ ( s ) : S → A \pi ^*(s):S\rightarrow A π(s):SA,来优化一个确定的性能指标。在每 i i i轮迭代中,IL agent和当前策略 π i \pi_i πi进行交互,然后生成一组state-action集合 D i = { ( s , π i ( s ) ) } D_i=\{(s,{\pi}_i(s))\}

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值