论文翻译2-SRAVS-Improving Quality of Experience by Adaptive Video Streaming with Super-Resolution-CSDN博客

本文提出了一种基于超分辨率的自适应视频流（SRAVS）框架，结合强化学习（RL）模型，以提高视频质量和用户体验。在带宽估计不准确或资源有限的情况下，SRAVS通过视频超分辨率技术提高低比特率视频的画质，减少重新缓冲事件，同时考虑客户端设备的计算能力。通过与现有流媒体策略的比较，SRAVS在多种质量指标上表现出优越性能，证明了其在实际视频流应用中的潜力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

题目:通过具有超分辨率的自适应视频流提高体验质量2020INFOCOM --论文pdf下载

Zhang Y, Zhang Y, Wu Y, et al. Improving quality of experience by adaptive video streaming with super-resolution[C]//IEEE INFOCOM 2020-IEEE Conference on Computer Communications. IEEE, 2020: 1957-1966.

摘要

鉴于当今的高速移动互联网访问，观众期望的视频质量比以前更高。视频服务提供商已经部署了动态视频比特率自适应服务来满足此类用户需求。然而，传统的视频比特率自适应技术高度依赖于动态带宽的估计，并且无法集成视频质量增强技术，或者无法考虑客户端设备的异构计算能力，从而导致用户的体验质量（QoE）低。在本文中，我们提出了一种基于超分辨率的自适应视频流（SRAVS）框架，该框架应用了强化学习（RL）模型来将视频超分辨率（VSR）技术与视频流策略集成在一起。 VSR技术允许客户端下载低比特率的视频片段，将其重构并增强为高质量的视频片段，同时使系统减少对估计动态带宽的依赖。 RL模型研究回放统计信息和与客户端计算功能相关的区别功能。跟踪驱动的对真实视频和带宽跟踪的仿真证明，与采用或不采用VSR技术的最新视频流策略相比，SRAVS可以显著提高用户的QoE。

关键词

自适应比特率流，超分辨率，强化学习

1.INTRODUCTION

技术正在改变我们消费信息和内容的方式，许多人正在放弃有线电视订阅，转而使用流媒体视频服务。与有线电视服务相比，在线视频流为观众提供了根据兴趣生成和点播任意视频的机会[1]。 Youtube、Netflix 和 Hulu 等视频服务提供商推出了动态视频比特率自适应，以提高用户的体验质量 (QoE) [2]，让用户以最少的回放重新缓冲访问高质量的视频内容。同时，视频质量增强技术如超分辨率 [3] 进一步增强和饱和播放器中显示的内容。在这种情况下，人们将越来越多的时间花在视频点播（VoD）、直播流媒体[4]、VR流媒体[5]和短视频流媒体[6]等在线视频服务上。
对比特率自适应不断增长的需求吸引了学术界和工业界的努力，导致了诸如基于 HTTP 的动态自适应流媒体 (DASH) [7] 等标准的产生。一般来说，常见的码率适配策略可以分为 pull-based 和 push-based 两类，基于pull的策略 [8]、[9] 旨在根据播放统计信息主动请求未来视频片段的比特率。基于push的策略[10]、[11]需要收集客户端信息并制定速率分配方案以将特定段推送给客户端。虽然这些提议是针对特定流媒体场景的，设计精巧，但它们存在以下挑战：
• 对动态带宽的依赖。常见的比特率自适应策略高度依赖于带宽的估计。动态或较差的带宽条件会误导未来带宽的估计并限制未来段的候选比特率选择，从而降低性能。
• 没有视频质量增强技术。很少有流媒体策略与最先进的视频质量增强技术相结合，而后者可以显着提高每个片段的视频质量。
• 客户端的异构计算能力。大多数码率适配策略只关注播放统计，而没有区分各种类型的客户端设备。但是，播放设备具有不同的计算能力，并且通常以相同的策略执行不同的操作。
视频超分辨率 (VSR) 技术适合解决这些挑战。首先，VSR算法试图将视频的质量从低比特率提升到高比特率，即使在比特率自适应策略中估计动态带宽的错误导致下载低比特率片段也可以提高视频质量。其次，VSR 操作和增强视频的像素是可行的，例如，研究人员提出了将 VSR 技术应用于视频流媒体的优先尝试 [12]，并且 Bitmovin等公司 已经推出了基于 VSR 的流媒体策略。第三，由于设备上计算资源的增加，可以在客户端执行基于深度学习的模型，从而可以弥补差距，充分利用学习播放统计数据来支持 VSR 和自适应视频码率流。此外，我们的初步研究表明：（1）现成的播放设备能够使用先进的VSR 模型实时提高视频质量； (2) VSR对特定视频片段视频质量的提升是固定的，可以作为优化流媒体的先验知识； (3)下载过程和VSR重构过程可以并行执行。基于这些观察，在本文中，我们提出了一种基于超分辨率的自适应视频流 (SRAVS) 框架，该框架由强化学习 (RL) 组成，用于选择要下载的视频块的比特率以及要下载的另一个比特率重建。图 1 演示了 SRAVS 的任务。具体来说，我们使用 SRCNN [13] 进行视频片段的 VSR 重建，并以标准消耗时间记录 PSNR 的质量改进。 RL 模型是基于 Actor-Critic 结构实现的，它考虑了播放统计和 VSR 相关信息。对真实世界视频和带宽跟踪的实验表明，所提出的 SRAVS 框架在使用或不使用 VSR 技术的情况下都优于最先进的流媒体系统。
Fig1
本文的贡献可以总结如下。
• 我们提出了一个基于超分辨率的自适应视频流框架，即使在带宽条件较差的情况下，也为客户提供了通过 VSR 技术将低比特率视频重建为高比特率视频的机会。
• 我们应用基于RL 的决策模型，使码率适配方案与VSR 重建计划相结合，既考虑了播放统计数据，又考虑了区分客户端相关的计算能力。
• 实验和跟踪驱动的仿真验证了 SRAVS 对各种 QoE 目标的鲁棒性，并且对于现实世界的视频流应用程序是实用的。
本文的其余部分组织如下：我们介绍了第二节的背景知识和相关工作。第三节呈现视频流SR任务的概述，我们在第4 节中详细讨论了所提议的 SRAVS 的设计。并在第5节提供了实施方案。然后，第六节进行评估并展示结果。六、最后，我们在第七节中结束我们的工作。

II. BACKGROUND AND RELATED WORK

所提出的 SRAVS 同时利用了比特率自适应策略和视频超分辨率算法。在本节中，我们总结了这些领域的最新策略，并介绍了一些相关工作，这些工作将在评估部分与 SRAVS 进行比较。
基于启发式的比特率适应。比特率自适应策略是任何基于 HTTP 的视频流服务的重要组成部分。然而，最优码率自适应策略是一个 NP-hard 问题，动态的网络条件使得在现实世界的流媒体场景中提供最优解决方案变得更加困难。基于带宽的策略通常是激进的，因此在带宽难以预测时无法很好地发挥作用。在这种情况下，研究人员采取了适度的策略，包括（1）基于缓冲区的速率自适应[14]，其重点是通过播放缓冲区的状态进行比特率控制，以严格避免重新缓冲； (2) 将低 QoE 风险降至最低的基于控制理论的策略，例如 MPC [2]； (3) 寻求近期次优 QoE 的基于凸优化的算法，例如 BOLA [8]。很明显，这些方法取决于带宽条件。在本文中，我们引入了 VSR 技术，为用户提供了一个机会，即使在带宽较差的情况下也能观看高质量的视频
基于学习的比特率适应。用户可能更喜欢各种 QoE，即在 QoE 指标上呈现不同的权重，并且回放可能发生在不同的设置下，例如设备类型和网络条件。关于集中分配策略，控制服务器收集所有客户端的播放统计信息，并将合适的视频码率推送给客户端[10]，[15]。除此之外，RL 的最新进展赋予分布式流媒体策略学习优化任何给定 QoE 目标的策略的能力。 Pensieve [9]、DRL 360 [5] 和 LST [16] 是分别在视频点播流、360 视频流和直播流上使用深度强化学习模型的三个优先尝试。与这些设计相比，所提出的 SRAVS 将 VSR 技术集成到比特率自适应策略中，从而可以充分考虑播放设备的计算资源和动态网络条件，以提供最合适的比特率。
视频超分辨率。 VSR 专注于从连续的低分辨率帧重建高分辨率帧。 SRCNN [17] 具有轻量级的 CNN 结构，但展示了最先进的恢复质量，并实现了实际在线使用的快速速度。基于SRCNN，VDSR [18]和VESPCN [19]分别使用可调梯度裁剪和时间冗余被提出。尽管复杂模型提供了高质量的重建视频，但它们可能无法在实时移动设备运行。最近，NAS [12] 被提议通过 VSR 技术为具有强大功能的设备提高视频质量。然而，它不知道移动设备上的各种计算资源，而串行下载和重建会降低性能。 SRAVS 通过设置单独的下载缓冲区和播放缓冲区来并行处理程序，并使用 SRCNN 来确保效率，从而弥补了这一差距

III. SYSTEM OVERVIEW

传统视频流系统中的视频质量主要取决于下载视频的带宽。随着视频处理技术的快速发展和现成的移动设备强大的计算能力，通过客户端机制可以实时提高视频质量。在本文中，我们提出了 SRAVS，一种采用超分辨率算法来提高视频质量的流媒体系统，即使在播放过程中带宽条件较差。图 2 说明了具有超分辨率的流媒体系统的概述。

具有不同分辨率的视频块。在视频流服务中，视频由一系列图像组成，称为帧。视频块是视频的一小段，由多个连续帧组成。基于DASH标准[7]，视频被分成具有相同时长的块，记为T。我们从1到N对块进行索引，其中N代表视频的块数。这些块被编码成一组分辨率，记为K，因此客户端可以根据自己的播放统计和网络情况请求视频块的相应分辨率。令qi∈K表示第i个块的请求分辨率，b(i,qi)表示该块的实际大小。 MPD 文件记录了所有视频块的分辨率和大小，在执行流策略时通知客户端。
带重建的视频流。在 SRAVS 中，我们通过重建决策将超分辨率引入到自适应视频流中。对于视频的第 i 个块，重建决策可以表示为 (qi, q’ i)，表示以 qi（称为基本分辨率）分辨率下载的块将重建为 q’ i 分辨率（命名为目标分辨率）。由于不同的设备拥有不同的计算能力，重建时间不固定。让 ψi(qi, q‘ i) 表示在当前设备上将第i个chunk从 qi 分辨率重构到 q’分辨率的时间。一个标准的重建时间，表示为¯ψi(qi, q’ i)，被提供给客户端用于重建特定块的估计。 ψ¯i(qi, q’ i) 来自 NVIDIA 1080Ti GPU 上的重建时间。考虑到最先进的超分辨率模型中的优化技术，不可能从某些基础分辨率到特定目标分辨率进行重建。主要原因是采样点最好准确地定位在一个像素上，否则插值可能会降低效率或削弱性能。令 D 代表所有合法重构决策的集合。注意 qi 可以等于 q’ i，表示客户端可以跳过第i个块的重建过程，因此其重建时间将为0。由于特定重建决策的生成块总是固定的，我们可以通过峰值信号来衡量重建的改进到噪声比 (PSNR) [20]。我们将 PSNR(i, qi, q‘ i) 定义为从 qi 分辨率重建到 q’i 通过双线性插值对源视频块进行解析。在这种情况下，特定块的所有合法重建决策下的 PSNR 都属于同一规模，可以直接进行比较。 MPD 文件还包括 PSNR(i, qi, q‘ i) for i = {1, . . . ,N}, qi ∈ K 和 q’ i ∈ K，以及标准重建时间 ψ¯i(qi, q? i)，为客户做出重建决策提供证据。
基于pull的策略。 SRAVS 采用基于pull的自适应视频流策略。在整个播放开始时，客户端会请求 MPD 文件检索视频的所有块的信息。在第 i 个块的播放方面，当第 (i-1) 个块完全下载且下载缓冲区未满时，基于 RL 的模块将产生重建决策 (qi, q‘ i)在客户端上的监视器收集的播放统计信息。为了提高 SRAVS 的效率，我们通过解耦下载过程和重建过程使用两个模块来支持播放过程。

下载模块不断向重建决策请求第i个分辨率为qi的chunk，并将其放入下载缓冲区；
重构模块从下载缓冲区中移动第 i 个块，通过视频超分辨率模型将其从 qi 重构为 q’ i ，然后放入播放缓冲区，在那里内容可供播放器播放。
这两个模块可以并行工作，因此下载过程不会因块的重建而暂停。
因此，基于RL的模块的主要问题是处理下载和重建之间的权衡，否则这两个过程将在消耗时间上相互竞争。同时，基于 RL 的模块应优化视频质量的 QoE 和潜在的rebuffer，同时应限制质量变化以避免physical discomfort。

IV. ADAPTIVE BITRATE WITH SUPER-RESOLUTION

在本节中，我们首先阐述了超分辨率码率自适应的问题，然后介绍了 SRAVS 中自适应码率流的设计。具体来说，SRAVS 由两个主要模块组成：（1）超分辨率模块，通过 SRCNN 将低分辨率块重建为高分辨率块； (2) 基于 RL 的比特率适配模块将超分辨率与自适应视频流相结合。
A. Problem Formulation
SRAVS 的性能取决于下载和重建视频块。由于这两个动作在消耗时间上相互竞争，常见的视频流框架无法充分利用超分辨率。我们提出了一种双缓冲机制来协调它们以提高 SRAVS 的效率。在播放过程中，客户端会将请求的块下载到下载缓冲区中。同时，超分辨率模块从下载缓冲区中提取下载的数据块，并在执行重构后将其移动到播放缓冲区。
与常见的流媒体系统相比，双缓冲机制为流媒体工作流引入了新的约束。让ti 表示客户端开始播放第i 个块的时间，tB i 表示请求第i 个块的时间，tH i 表示重建第i 个块的开始时间。为保证 SRAVS 中视频流的流畅性，两个缓冲区应在以下限制下相互配合：

令Bmax表示下载缓冲区的容量，当第(i-1)个chunk下载完成且下载缓冲区未满时，应立即请求第i个chunk，即，

其中 di 表示下载第 i 个块的时间。假设第i个chunk的平均下载带宽用ci表示。那么下载时间di可以推导出来：
让 Hmax 表示播放缓冲区的容量。当播放缓冲区未满时，如果第i个块已经在下载缓冲区中并且第(i-1)个块的重建完成，则超分辨率模块可以开始重建第i个块，即，
第i个chunk只能在重构后播放，第(i-1)个chunk播放完毕，可以表示为：

因此，我们可以获得两个缓冲区的状态，这对流策略很重要。让 B(t) 和 H(t) 分别表示在时间 t 下载缓冲区和播放缓冲区中的块数，计算公式为：

特别是当回放缓冲区耗尽时会发生重新缓冲，这可能是由于未完成的新块下载或未完成的重建造成的。让 τi 表示第 i 个块播放之前的rebuffer时间，如下：

B. SRAVS 的 QoE 目标
在不同的场景下，用户可以对播放的QoE表现出不同的偏好。为了与常见的视频流系统保持一致，我们关注以下可能有助于 QoE 的指标：
• 平均视频质量：用户倾向于搜索高视频质量。传统上，块的比特率可以与其质量成正比。但是，如果将低分辨率块重建为高分辨率，由于重建错误和先进的视频压缩技术，比特率将无法再衡量视频质量。因此，我们采用 PSNR 度量来量化视频的质量，即

• 平均质量变化：两个连续块之间的分辨率波动可能会导致用户出现头晕和头痛等生理症状。因此，块质量的时间变化不应该是剧烈的，可以通过以下方式衡量：

其中 f(·) 将分辨率映射到视觉体验。在本文中，我们使用对数函数 f(q‘ i) = ln (wq’ i · hq‘ ) 作为这个映射，其中 wq’和Hq’ i 描述将第 i个chunk 重构为 qi‘ 的宽度和高度。
• 平均rebuffer：下载和重建需要一定的时间。当缓冲区为空并且下载或重建未完成时，客户端将遭受rebuffer，直到准备好播放新块。平均rebuffer时间可以计算为：

然后我们通过上述三个指标的加权求和来定义整个视频的 QoE 目标：

其中 (α1, α2) 是非负权重参数。因此，为了为用户提供高 QoE，我们通过生成一系列重构决策来最大化 QoE 目标，从而制定了具有超分辨率的比特率自适应问题：

显然，问题 1 可以转化为一个 0-1 整数规划问题，因此它是 NP-hard 问题。同时，第i个chunk的ci和ψi(qi,q’i)需要在请求产生前进行估计，估计很难100%正确。因此，使用确定性算法获得最优解存在困难。
C. Super-Resolution Module
在 SRAVS 中，客户端应根据重建决策实时重建低分辨率视频块。监视器将 VSR 的潜在改进和先前视频块的重建时间收集到播放统计信息中。基于回放统计，基于 RL 的比特率适配模块可以确定是否需要下载低分辨率块并将其重建为高分辨率。因此，SRAVS 中合适的超分辨率模型不应该太复杂，否则由于最小的重新缓冲问题，永远不会调用超分辨率。
SRCNN 模型是深度学习在图像超分辨率领域的应用[17]。 SRCNN 是基于具有三个 2D 卷积层的卷积神经网络构建的。低分辨率帧将首先进行双三次插值 [21]，使其大小与目标分辨率相同。 SRCNN 将插值后的帧作为输入，将其重构为高分辨率、高质量的帧。第一层用作补丁提取和表示，使用形状为 f1 × f1 的 n1 个滤波器。第二层用作非线性映射，使用形状为 f2 × f2 的 n2 个滤波器。第三层用作重建，使用形状为 f3 × f3 的 c 个滤波器，其中 c 表示输出帧的通道数。视频块中的帧形成一批可以并行执行的图像。
直观地说，使用超分辨率有两个主要特点：
• 对于一定的基本分辨率，目标分辨率越高，获得的 PSNR 就越高。
• 对于某个目标分辨率，基础分辨率越高，获得的 PSNR 就越高。
与其他最先进的 VSR 模型相比，轻量级的结构使 SRCNN 可以用到现实世界的视频流应用程序。 SRCNN 的低复杂度支持这种说法。

通过并发执行可以进一步优化重建时间。根据 Prop. 1，重建时间与基础分辨率和目标分辨率的大小有关。在这种情况下，码率适配模块应该考虑到客户端的计算能力。 SRAVS 为客户提供标准的重建时间，相比之下，客户可以估计重建需要多长时间。然后，客户端可以确定哪个重建决策能够最好地优化 QoE 目标。

D. Reinforcement Learning based Module
1）Agent-environment Interface：在RL语义中，决策者被称为agent。agent为了特定目标而与环境保持交互。在每一步，agent根据其状态做出动作。环境以numerical reward响应action并更新agent的状态。 RL 程序的目标是在指导agent生成动作的策略下最大化步骤的奖励。在 SRAVS 中，客户端可以被视为播放环境中的agent。action是在回放期间对状态做出重建决策，旨在最大化方等式11中的数值 QoE 目标。
2) RL for Streaming with Super-resolution:
状态：在流媒体系统中，我们收集一些重要的信息作为状态，为客户端的决策提供证据。剩余块的数量（N-i）和重构块的数量δ是播放环境中的重要信息。带宽是决策的关键限制，因此下载最后几个块时的平均带宽 ¯ci−1, ¯ci−2, …, ¯ci−k1 用作带宽的隐式预测，其中 k1 是一个超参数。除了带宽条件外，还包括 B(tB i ) 和 H(tB i ) 以提供缓冲条件。让Ψi表示下载缓冲区中视频块的标准重建时间的总和，Ψi为重建时间的预测提供信息：
在这里插入图片描述
还考虑了正在重建的视频块的经过时间和标准重建时间，表示为 lB i ，重建时间 Ψ¯i 和正在播放的视频块的剩余时间 lH i ：

同时，客户端的计算能力决定了本地重建时间。让 μδ 表示设备在第 δ 个块的重建过程中的计算能力。 µδ 可以通过重建时间的比例来估计：
在这里插入图片描述
我们使用 μδ、μδ−1、… μδ−j 为计算能力和重建时间的隐式预测提供信息。特别是，我们将 k2 数字保留在 μδ、μδ−1、… μδ−j 中，因为客户端可能无法重建某些特定块，其中 k2 也是一个超参数。为了促进 RL 模型的学习，我们对 q‘ i 变成一个单热向量 vi。此外，还包括来自 MPD 文件的各种重建决策的改进信息，以告知模型每个决策的潜在收益的详细知识。因此，我们在请求第 i 个块时定义状态，用 si 表示，如下：
在这里插入图片描述
动作：基于 RL 的模型寻求根据当前状态 si 做出重建决策，这被视为动作 ai = (qi, q’ i) ∈ D。
奖励：监视器可以记录回放过程中的重新缓冲时间 τi。注意 PSNR(i, qi, q‘i) 和 f(q’ i) 是特定重建决策 (qi, q‘ i) ∈ D 的固定值。
因此，我们可以实时获得 QoE 目标的值，并将其作为 RL 模型的奖励，表示为第 i 个块的 ri，其计算公式为：
在这里插入图片描述
策略：强化学习的目标是最大化预期累积折扣奖励，即 E[ ΣN riγi]，其中 γ ∈ (0, 1] 是 i=1 未来奖励的折扣率。应该选择动作基于随机策略，定义为动作的概率分布，表示为 πθ(si) → [0, 1]，其中 θ 表示 RL 模型的参数。πθ(si) 是给定动作 ai 的概率当前状态 si。那么，问题 1 可以转化为：
在这里插入图片描述
是具有策略 πθ(·) 的状态值函数。状态值函数通过 πθ(·) 从第 i 个块到播放结束测量累积折扣 QoE 奖励的期望。
3）使用A3C优化QoE目标：SRAVS采用异步优势actor-critic（A3C）架构来学习加速收敛的策略，如图3所示。A3C是actor-critic的异步变体，它包含一个globel network和 n 个worker [22]。每个客户端都充当worker，并与自己的播放环境进行交互，同时分别累积本地梯度更新。每个客户端都有两个神经网络：（1）actor 网络，旨在根据状态做出决策，以及（2）critic 网络，通过生成的重建决策评估状态。
在这里插入图片描述

对于某个策略 πθ(·)，我们首先定义状态 si 和动作 ai 的累积折扣奖励 R(si, ai) 为：
在这里插入图片描述
Critic 网络旨在预测状态的价值函数，因此，我们可以使用 MSE 损失函数来评估参数 w 的预测准确性。显然，评论家网络的精确预测可以确保客户端做出有效的重建决策。我们定义 w 的损失函数如下：

在这种情况下，每个客户端可以按照 A3C 架构中的设计在本地累积 w 的更新梯度：
在这里插入图片描述
为了避免过早收敛到次优确定性策略，我们将策略的熵添加到整个 RL 模型的目标函数中以改进探索，描述为：

根据算法 1 总结了基于 RL 的模块的训练方法。我们设置了多个线程来模拟客户端的动作。对于每个线程，每次它从训练数据集 D（第 4 行）中选取一个样本时。然后线程启动查看事件，做出重建决策，并与播放环境交互（第 5-8 行）。可以计算状态-动作值并用于累积局部更新梯度。这样，全局参数就可以被所有线程更新，最终得到一个高效稳定的模型。
在这里插入图片描述
E. Training Settings
模拟器。理想情况下，RL agent应该与真实环境交互以捕捉真实世界的特征。这意味着训练过程应该在可以下载和重建视频的真实视频流的客户端上进行。然而，这是不切实际的，因为下载和重建时间将与视频的长度处于同一水平，导致训练过程缓慢。因此，我们按照等式(1-7) 开发了一个模拟器。让代理与虚拟环境交互以加速 RL 的训练。带宽跟踪和重建记录被输入模拟器，使其模仿真实世界的流媒体系统。
优化。为了在收敛速度和性能之间取得平衡，我们使用 Adam Optimizer [23] 来自适应调整学习率。为了充分利用A3C中的多线程，我们设置了9个worker来最大化模型收敛的速度。

V. IMPLEMENTATION

该系统主要由两个部分实现：客户端模块和服务器模块。
我们系统中的服务器包含两类模块：离线模块和在线模块。离线模块包括视频编码器和重建模拟器。视频编码器将新视频段分为预定义分辨率的块。然后，重建模拟器将在这些块上使用与客户端相同的SRCNN模型应用所有法律重建决策。我们将标准的重建时间设置为该模拟器重建的时间。使用标准重建时间的比特率和可能的PSNR改进记录在MPD文件中。关于在线模块，服务器将接口设置为请求处理程序以处理客户端的请求。根据包含视频ID，块ID和所需质量的请求，服务器从数据库中检索块。然后，请求的块将通过HTTP连接发送到客户端。
将客户端应用程序部署在播放设备上，该播放设备显示视频并记录播放的统计信息。重建模块和基于RL的模块嵌入在客户端应用程序中，并且从服务器接收参数。根据用户的行为或偏好，基于RL的模块将分发给每个客户端。在播放开始时，客户端首先向视频提出MPD文件的请求。在播放期间，应用程序将找到播放SI的状态，并基于学习策略πθ（SI）选择动作AI。然后在双缓冲机制内执行该操作。

VI. EVALUATION

在本节中，我们对真实世界的轨迹进行评估，以检查 SRAVS 的性能。
在这里插入图片描述
A. Settings
超参数。在实验中，我们设置下载缓冲区的容量为Bmax=5，播放缓冲区的容量为Hmax=5。如果缓冲区中的内容达到此容量，则将暂停相应的操作。未来奖励的因子折扣率 γ = 1 通过模拟没有折扣的回放来检查 RL 模型的性能。此外，熵的权重 ζ=0.01，而 k1 和 k2 都设置为 5 以考虑准确性。块的持续时间设置为 T = 2s。
视频数据集。我们从 YouTube 上收集了 2K 分辨率的 90 秒到 5 分钟长度的 123 个预览视频，其中 100 个视频作为训练数据集来训练 SRCNN 模型。其余 23 个视频被视为测试集。在我们的测试中，我们选择了 11 个重建决策，因为其他五个不涉及重建。即所有合法重构决策集合包括：D={(360P,360P), (360P,480P), (480P,480P), (360P,720P), (360P,1K), (480P, 1K), (1K,1K), (360P,2K), (480P,2K), (720P,2K)}。
带宽跟踪。我们从 IDLab [24] 中选择了 40 条具有各种模式的 4G 带宽轨迹作为输入模拟器的带宽数据集。我们认为在播放视频时可能会与其他应用程序竞争带宽，并且存在网络信号不好的情况。因此，带宽跟踪按比例缩小，平均带宽值介于 1 Mbps 和 5 Mbps 之间。重建痕迹。我们准备了四种播放设备： (1) PC with GPU，即超高计算能力。 SRAVS 由 Tensorflow-GPU [25] 实现。 (2) 不带GPU的PC，即具有高计算能力的PC。 SRAVS 由 Tensorflow-CPU 在这些设备上实现。 (3) 现成的移动设备，即具有中等计算能力。 SRAVS 由 C 实现，具有大量线程。 (4) 普通移动设备，即计算能力较低的设备。 SRAVS 是由 C 用少量线程实现的。我们让这些设备对 23 个视频的所有块执行 5 次合法重建决策。重建时间记录在轨迹中并输入模拟器。
基线方法。我们将 SRAVS 的性能与以下视频流系统进行比较，以验证 SRAVS 确实将 VSR 集成到视频流中。
• 基于带宽的 DASH (BB)，它简单地将最后一个块的平均下载速度作为带宽的预测。 BB 力求毫不拖延地最大限度地提高视频质量。不考虑缓冲区中的内容。
• FastMPC 寻求通过控制理论最大化 QoE，以最大限度地降低 QoE 不佳的风险。 FastMPC 不考虑视频流的超分辨率。
• 贪婪序列(GS)。 GS 考虑了重建过程，下载和重建必须按顺序执行。在这个流媒体系统中，带宽和重建时间都是通过线性回归 (LR) 预测的。
• 贪婪并行（GP）。 GP 考虑了下载缓冲区和播放缓冲区的重建过程。带宽和重建时间都是由LR预测的。 GP 使用贪婪策略根据当前块的最大 PSNR 做出重建决策。
• Pensieve[9]。 Pensieve 利用 A3C 架构来学习没有超分辨率的流媒体策略。
指标。我们选择 (α1, α2) 的 3 组权重来表示 3 个 QoE 目标，即 (1,30)、(1,60)、(1,100)，用于对延迟的各种容忍度。
B. Performance of SRAVS
我们首先在各种 QoE 目标下检查 SRAVS 和比较流媒体系统的性能。结果绘制在图 4 中。我们观察到，当目标对视频质量分配高权重时，集成超分辨率技术有助于提高 QoE 性能。除此之外，SRAVS 在所有三个 QoE 目标上都优于其他算法，与 Pensieve 相比提高了 8%-15%，与 GP 相比提高了 10%-40%。该结果表明 SRAVS 可以适应各种 QoE 目标，这对于实际应用中的视频流是有效的。
C. Fine-grained analysis of SRAVS
我们进行了细粒度分析，以检查 SRAVS 为何能在所有 QoE 目标上运行良好。我们首先探讨了所有比较的流媒体系统的重新缓冲时间。图 5 显示了在三个 QoE 目标下，每个流算法在整个测试数据上的平均重新缓冲时间。我们发现 GS 和 GP 由于下载和重建的协调性较差而产生最高的重新缓冲时间。同时，我们观察到 SRAVS 在测试轨迹上优于其他算法。特别是，当 QoE 目标为重新缓冲分配高权重时，SRAVS 将平均重新缓冲降低了 25%-50%，即 (1,60) 和 (1,100)。当 QoE 目标最关注视频质量时（即 (1,30)），由 SRAVS 引起的重新缓冲仍然比那些旨在避免重新缓冲的流媒体策略（即 BB 和 Pensieve）具有竞争力。图 6-8 显示了在三个 QoE 目标下，每个流媒体系统在整个测试数据上实现的 PSNR 的 CDF。比较表明 SRAVS 在测试轨迹上的所有三个 QoE 指标上都优于其他算法。通过结果可以观察到与 Pensieve 相比大约 3%-10%。
D.Case Study
在本小节中，我们将介绍一些案例研究，以进一步分析 SRAVS 的性能。
带宽与 QoE。我们选择一组数字 {26, 30, 34, 38, 42, 46} 作为目标 QoE，以找出测试集中有多少回放轨迹可以至少达到所选 QoE。我们评估了提议的 SRAVS 和 Pensieve 在 QoE 目标上的性能 (1,30)。满足要求的回放轨迹比例的记录如图 9 所示。我们观察到，所提出的 SRAVS 优于 Pensieve，在相对较低的目标 QoE（QoE ∈ {26, 30, 34}）和大约 25%-40% 的相对较高的目标 QoE（QoE ∈ {38, 42, 46}）。也就是说，在相同的网络条件下，我们可以观察到客户可以观看高质量视频的更大改进。结果表明 SRAVS 有效地将超分辨率技术集成到流媒体策略中。
计算能力与 QoE。 SRCNN 模型的 SRAVS 性能取决于设备的计算能力。我们分析了四种设备在 QoE 目标下分别在 (1,30) 下生成重建轨迹的性能，并将结果绘制在图 10 中。显然，具有不同计算能力的设备在 QoE 上呈现出不同的模式的视频块，这表明 SRAVS 区分客户端，使他们根据自己的计算能力找到最合适的解决方案。此外，我们发现具有超高计算能力的设备感知与高计算能力设备相似的视频质量。这一观察证实了 SRAVS 可用于现成的播放设备
计算能力与 VSR。我们调查了在三个 QoE 目标下四种类型的设备执行 VSR 的比例。结果收集在表中。 I，我们看到计算能力越高，设备执行VSR以提高视频质量的可能性就越大。这一发现进一步支持了 SRAVS 中 RL 模块的效率。

VII. CONCLUSION

传统视频流策略中的视频质量与带宽条件密切相关。在本文中，我们制作了 SRAVS，它将视频超分辨率技术集成到流媒体策略中。具体来说，SRAVS 使用 SRCNN 将低分辨率视频块重建为高分辨率，因此即使在较差的网络条件下也可以提高视频质量。为了协调视频块的下载和重建，SRAVS 提出了一种双缓冲机制，使它们并行工作。然后应用基于 RL 的模块来适应动态带宽和不确定的重建时间，旨在使用视频质量和重新缓冲时间之间的任何给定权重来优化 QoE 目标。对真实世界轨迹的实验表明，SRAVS 比 QoE 目标至少提高了 8%-15% 的增量，优于几种最先进的流媒体策略。