论文翻译-Neural Adaptive Content-aware Internet Video Delivery

神经自适应内容感知互联网视频传输

摘要

       互联网视频流在过去几十年中经历了巨大的增长。但是,现有视频传输的质量关键取决于带宽资源。因此,当网络条件变得不利时,用户体验质量(QoE)不可避免地受到影响。我们提出了一个新的视频传输框架,它利用客户端计算和深度神经网络(DNN)的最新进展来减少提供高质量视频的依赖性。DNN的使用使我们能够独立于可用带宽来增强视频质量。我们设计了一个实用的系统来解决几个挑战,例如客户异构性,与比特率自适应的交互以及DNN传输,以实现它们。我们使用3G和宽带网络跟踪进行的评估表明,所提出的系统优于当前的技术水平,使用相同的带宽预算将平均QoE提高43.08%,或者在提供相同的用户体验的同时节省17.13%的带宽。

1、绪论

       互联网视频在过去几十年中经历了巨大的增长。最近的市场报告显示,世界各地的人们平均每周观看5.75小时的在线视频[10],视频流量预计将在未来五年内翻两番[26,63]。目前的视频传输基础设施已经成功地通过两种关键技术处理可扩展性挑战。首先,在服务器端,分布式计算技术支持互联网规模的内容交付。其次,在客户端,自适应比特率(ABR)流解决了带宽不均匀性的问题以及跨时间和空间的变化。随着时间的推移,两种技术不断发展,以优化用户体验质量(QoE),因为它最终会影响各利益相关方的收入[22,27,77]。
       但是,现有内容分发网络(CDN)的局限性在于其质量在很大程度上取决于服务器和客户端之间的带宽。当带宽资源变得稀缺时,用户QoE直接受到影响[43,47]。比特率适应一直是解决问题的主要工具[52]。然而,它对网络资源的唯一依赖是一个根本的限制。受到不断增长的客户计算能力和深度学习的最新进展的启发,本文确定了一种提高视频质量的替代和补充方法。我们利用客户端计算应用基于深度神经网络(DNN)的基于质量增强的内容来最大化用户QoE。特别地,深度学习模型学习从低质量视频到高质量版本(例如,超分辨率)的映射。这使得客户能够从较低质量的传输获得高分辨率(例如,1080p)视频,从而在比特率自适应的基础上提供用于QoE最大化的强大机制。
       通过DNN利用客户端计算会影响服务器/客户端系统并引入一些重要的挑战
       首先,CDN服务器必须为它们提供的内容提供DNN模型。但是,很难保证DNN预测的测试性能。对于看不见的/新的内容来说尤其不可靠,这对部署来说是一个重要的障碍。
       其次,客户端设备是异构的。它们的计算能力变化很大,甚至可能由于多路复用而表现出时间变化。然而,基于DNN的质量增强必须实时发生以支持在线视频流。
       最后,基于DNN的质量增强具有基于ABR的QoE优化的级联效应。除了可用带宽之外,质量现在还取决于客户端DNN的可用性。因此,现有的ABR算法必须反映这些变化。
       本文介绍了NAS,这是第一个使用客户端计算能力将DNN应用于视频内容以最大化用户QoE的视频传输框架。我们提出了一种运行在HTTP(DASH)框架上的动态自适应流传输之上的系统设计。NAS通过引入新系统设计来增加挑战。为了保证DNN提供可靠的质量增强,它需要一种内容感知方法,其中DNN分别针对每个内容进行训练。我们的想法是提高DNN的设置属性和设置精确度,以确保高性能,而不是依赖于不可预测的测试精度。接下来,为了满足异构环境的实时约束,我们使用多个可扩展的DNN来提供任何时间预测[24,36]。在给定资源预算的情况下,这种DNN架构可以自适应地控制其计算成本。NAS客户选择最适合其资源的DNN(来自多个选项)并适应每个时代的计算能力的时间变化。可扩展的DNN还允许使用单独下载的DNN,为下载DNN模型带来增量收益。最后,为了协调基于ABR的QoE优化和基于DNN的质量增强,我们设计了一种用于QoE优化的内容增强感知ABR算法。为此,我们将我们的设计整合到使用强化学习的最先进的ABR算法[52][68]。该算法决定何时下载DNN模型以及用于每个视频块的视频比特率。
       我们使用完整的系统实施来评估NAS。我们使用六种不同的GPU模型评估了27个真实视频和17.8小时的真实世界网络跟踪[8],显示NAS在各种设置中提供了实质性的好处,并且能够满足不同容量的桌面级GPU的实时约束。特别是,与DASH[4]中使用的BOLA[66]和最先进的ABR设计Pensieve相比,用户QoE提高了63.80-136.58%和21.8976.04%。最后,我们提供了对各个系统组件的深度性能分析。
       总之,我们做出了三个关键贡献
       端到端视频流系统:NAS是一种端到端视频流系统,集成了内容感知方法,DNN用于超分辨率,可扩展的随时预测,以及处理设备异构性的适用于自适应流动框架的机制。
       在自适应流传输中使用DNN:NAS是第一个在自适应流传输环境中应用超级分辨率DNN认证的系统。从机器学习(ML)方面来看,我们是第一个将DNN流,超分辨率和随时预测应用于自适应流媒体的方法。
       内容感知DNN:NAS将视频与相应的内容感知DNN一起流式传输到其客户端。这是NAS的关键推动因素和新颖组件,也可视为视频编码的新方法。

2、动机和目标

       改善视频流质量的传统方法包括:使用更好的编解码器[11,12];优化自适应比特率算法[20,39,42];选择更好的比特和CDN [17,50,74];并通过集中控制平面在客户端和服务器之间进行协调[51,54]。这些方法主要用于网络资源,但存在两个共同的局限性。
在这里插入图片描述

图1:GPU的处理能力的增长

       客户计算利用不足。市场报告[10,57]表明大多数用户主要在PC上观看视频,这些PC具有显着的计算能力。移动设备是下一个受欢迎的平台,它还配备了功耗高效的图形处理单元(GPU)[29]。图1显示了GPU在移动设备和台式机上的计算能力随时间的呈指数增长。最新的移动设备甚至还有用于神经处理的专用硬件[7]。但是,当前的视频传输基础设施未充分利用客户端的计算能力。随着他们不断增长的计算能力和不断增长的带宽需求,我们设想了一个视频传输系统,客户可以在其中发挥积极作用,提高视频质量。当前视频编码的限制。视频集通常包含在大时间段发生的冗余。例如,考虑数百万人观看的流行体育游戏(例如,NBA终端)。相同的物体(例如球和球员)和场景(例如,篮球场)反复出现。同样,在电视节目,体育联盟中的游戏以及来自相同流媒体的视频中也可以找到冗余。这种频繁重复出现的高级特征包含可用于视频编码的有价值信息。然而,标准视频编码(例如MPEG和H.26x)仅捕获空间和短期冗余,缺乏利用运动图像的高级特征的任何机制。在一组图片(GOP)中,帧间编码在相邻帧之间编码差分压缩运动图像[30]。但是,GOP通常在线视频的数量级为秒[13],因此无法捕获在大时间尺度下发生的冗余。只要编解码器仅在GOP内压缩视频(可以说是流媒体的基本约束),使用复杂的编解码器就不能完全消除这种差距。
受此启发,我们设想了一种视频传输系统,它通过捕获高级功能来利用这种冗余,并应用额外的客户端计算来增强传统视频编码的限制。为此,我们利用DNN从数据的低级表示中抽象出有意义的特征[23]。
       系统目标。我们的目标是设计一个实用的系统,增强现有的基础设施,以优化用户的QoE。作为第一步,我们考虑提供按需视频服务,而不是实时流,以及使用具有桌面级GPU的个人计算机。我们建议在更大程度上重新设计对客户端计算的优势。为了提高质量,我们利用超低分辨率将低质量视频作为输入并生成“放大”版本。我们选择超分辨率是因为最近取得了重大进展[28,45,49]。虽然我们将研究范围扩展到桌面级GPU和超分辨率,但我们认为框架工作是完全适用于DNN模型和设备的不同类型。

3、背景和相关工作

       自适应流(例如,Apples HLS [1],DASH [2])被设计为处理现实世界中不可预测的带宽变化。视频被编码成各种比特率(或分辨率)并被分成固定长度,通常为2-10秒。自适应双频算法(ABR)决定了对视频资源的预测。传统ABR算法基于估计的网络带宽[42]和/或客户端回放缓冲区[66]的当前大小,使用启发式方法选择比特率。MPC[77]和Pensieve[52]证明直接优化所需的QoE目标比基于启发式的方法提供更好的结果。特别是,Pensieve使用深度强化学习,并通过“观察”学习过去决策和当前状态如何影响视频质量。Oboe [21]根据查询离线预计算结果的网络条件动态调整ABR参数。虽然这些算法能够成功应对带宽变化,但它们既不考虑客户端质量增强的影响,也不考虑同时传输DNN和视频块的动态。
       超分辨率从单个或多个较低分辨率的图像中恢复高分辨率图像。超分辨率已被用于各种计算机视觉应用,包括监视[78]和医学成像[65],或其他原始的高质量图像/视频是不可得的方面。最近的研究使用DNN[28,45,49]来学习低分辨率到高分辨率的映射,并证明与非DNN方法相比具有显着的性能增益[25,64]。特别是,MDSR[49]是一种先进的DNN,它集成了残余神经网络架构[34]并支持多尺度输入。在NAS中,我们在自适应流媒体上应用超分辨率,通过在客户端增强低质量视频来改善用户QoE。
       可扩展DNN是一种新兴的DNN,旨在动态适应计算资源约束,实现随时预测[36]。浅层和深层网络分别用于资源受限和高效的环境[24,36]。 ISResNeXt[48]选择性的使用适合DNN宽度(或信道)的细网络和宽网络。可扩展的DNN主要应用于图像分类/检测任务。NAS将随时预测应用于超分辨率,并使用它在流式上下文中提供增量质量增强。
       基于DNN的媒体压缩。最近的研究[18,61,71]表明,基于DNN的图像压缩优于传统的图像编解码器,如JPEG2000和WebP。传统编解码器的优势主要来自两个方面:1)直接优化目标质量度量; 2)根据图像调整编解码器配置,而不是使用固定配置[61]。然而,将其应用于视频涉及显著的挑战,包括减少跨DNN编码图像的帧间冗余的问题。最近的一项工作[72]使用DNN执行I帧压缩和帧插值。然而,基于DNN的视频压缩分析只是提供了“与MPEG-2相当的性能”并且在提供实时解码方面不尽如人意[72]。NAS旨在使用DNN增强现有视频传输——它通过在传统视频编解码器上应用超分辨率DNN实现逐帧应用质量增强功能。
       视频处理系统。后端视频处理系统需要增加视频编码所需的重要性。研究报告称,快速交互式共享的延迟,编码的系统效率,可扩展性和容错性是主要问题[31,37,70]。SVE [37]介绍了Facebook中使用的后处理系统。ExCamera[31]使用大规模并行性来实现交互式和协作式编辑。他们专注于在不改变客户端的情况下解决数据中心内的分布式系统问题,而我们则专注于服务器和客户端之间的工作分工。
       对视频控制平面的研究[32,41,44,51]确定了性能中CDN的空间和时间多样性,并提倡互联网规模的控制平面,该平面协调客户行为以共同优化用户QoE。虽然它们控制客户端行为,但它们不利用客户端计算来直接提高视频质量。

4、关键设计选择

       实现我们的目标需要重新设

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值