论文翻译3-视频流SR技术分析

CoNEXT 2020

题目：内容交付系统中的神经增强：最新技术和未来方向

Neural Enhancement in Content Delivery Systems: The State-of-the-Art and Future Directions

摘要：

支持互联网的智能手机和超宽显示屏正在改变各种视觉应用，从点播电影和 360° 视频到视频会议和直播。然而，在不同功能的设备上在波动的网络条件下稳健地提供视觉内容仍然是一个悬而未决的问题。近年来，在超分辨率和图像增强等任务上的深度学习领域取得了进步，在从低质量图像生成高质量图像方面取得了前所未有的性能，我们将这一过程称为神经增强。在本文中，我们调查了最先进的内容交付系统，这些系统采用神经增强作为实现快速响应时间和高视觉质量的关键组件。我们首先提出神经增强模型的部署挑战。然后，我们介绍针对不同用例的系统，并分析其克服技术挑战的设计决策。此外，我们根据深度学习研究的最新见解提出了有希望的方向，以进一步提高这些系统的体验质量。
关键词：
计算机视觉任务；分布式计算方法

1 INTRODUCTION

        Internet 内容交付在过去几年中取得了巨大的增长。具体来说，到 2022 年，视频流量预计将占全球互联网流量的 82%，高于 2017 年的 75% [7]。这种增长不仅归因于支持互联网的设备的快速增长，还归因于对更高分辨率内容的支持。例如，到 2023 年，估计有 66% 的电视机将支持超高清 (4K) 视频，而 2018 年为 33% [6]。最重要的是，直播、视频会议、视频监控以及短视频和长视频点播等内容流量预计将快速增长。为了满足这些需求，出现了一类新的分布式系统。此类系统从共同优化延迟和准确性的视频分析框架 [12, 46]，到旨在最大化体验质量 (QoE) 的内容交付系统 [36, 52]，根据所选比特率和重新缓冲的量。
        用于内容交付的分布式系统的主要挑战之一是它们对网络条件的依赖。目前，由于大量传输的数据和严格的延迟目标，客户端和服务器之间的通信通道的质量在满足应用程序级性能需求方面起着关键作用。然而，在现实生活中的移动网络中，通信速度会波动，网络状况不佳会导致响应时间过长、丢帧或视频卡顿，从而迅速降低用户体验。越来越多的用户竞争同一个网络资源池，进一步加剧了这种现象。
        最近能够应对这一挑战的一种关键方法是通过超分辨率 (SR) 和图像增强模型进行神经增强。这些模型能够处理低分辨率/质量的图像并生成高质量的输出。随着卷积神经网络 (CNN) 前所未有的性能，内容交付系统已开始将神经增强模型集成为核心组件。在内容交付系统中使用神经增强模型的主要范例包括传输紧凑的低分辨率/质量内容，通常与相关模型一起传输，然后在接收端通过一个具有增强能力的模型 [51]。通过这种方式，传输负载被最小化，大大减少了网络占用空间和相应的带宽要求.
        尽管它们有好处，但将最先进的神经增强模型集成到视觉内容交付系统中会带来重大挑战。首先，这些模型，尤其是 SR 模型，有过多的计算需求，每帧高达数百个 TFLOP，以实现高达 4K/8K 的升级。由于客户端平台通常包含具有严格资源和电池限制的设备 [2]，客户端仍在努力在设备上执行神经增强模型，同时满足目标质量 [29]。为维持高 QoE 而强加的严格延迟和吞吐量要求加剧了这一事实。最后，实现此类系统的部署需要克服因用例多样性而产生的独特技术挑战，从点播视频流 [52] 到视频会议 [17]。
在这里插入图片描述

本文提供了对采用神经增强的视觉内容交付系统不断增长的领域的及时和最新概述。特别是，我们首先描述了此类系统的典型架构和主要组件。然后，我们调查了各种内容交付应用程序中最先进的现有系统（表 1），包括点播视频和图像服务、视觉分析、视频会议、直播和 360° 视频。最后，我们讨论了神经视觉内容交付系统设计的未来方向，这些系统借鉴了计算机视觉社区的最新进展，并描述了如何将它们集成到增值现有系统中.
图 1 描绘了内容交付系统的典型分布式架构。不失一般性，专注于视频点播，客户端选择在线视频播放，其视频播放器应用程序向服务器端发送请求。服务器从其数据库中获取视频，将其分成几秒长的片段并开始将它们流式传输到客户端。

2 VISUAL CONTENT DELIVERY SYSTEMS

        内容交付系统是系统研究中广泛研究的领域 [4, 18, 23, 36, 54]。此类系统旨在以最小的延迟和高视觉质量向用户提供内容，同时支持从功能强大的台式机到移动设备的各种客户端平台。图 1 描绘了内容交付系统的典型分布式架构。不失一般性，专注于视频点播，客户端选择在线视频播放，其视频播放器应用程序向服务器端发送请求。服务器从其数据库中获取视频，将其分成几秒长的片段并开始将它们流式传输到客户端。
        为了让此类系统满足性能目标，客户端和服务器之间的通信通道必须在整个流传输过程中保持高带宽。这构成了一个强有力的假设，即连接条件不断变化的移动客户端会中断。因此，引入了额外的技术，例如自适应比特率和神经增强，以实现对信道质量变化的动态适应。
        自适应比特率。为了弥补内容交付系统对网络条件的依赖性，出现了自适应比特率 (ABR) 算法 [18, 36, 54]。在此方案下，客户端设备首先监视其瞬时带宽（图 1 中的网络估计器）以评估当前网络状态或其播放缓冲区的占用情况。接下来，ABR 控制器相应地调整它从服务器请求的每段比特率，并将客户端的编解码器配置为以选定的速率进行解码。在远程端，服务器使用指定的比特率对每个视频片段进行编码，并将它们流式传输到客户端。总体而言，ABR 技术的作用是在运行时控制网络足迹，从而有助于最大限度地减少重新缓冲。尽管 ABR 通过基于深度学习的算法得到了显着改善 [36]，但它在稀缺的网络条件下经常失败，因为它完全依赖于网络资源。
        神经增强。神经增强旨在恢复和恢复视觉输入的质量/分辨率。由于这个问题本质上是不适定的，因此大多数作品都强制执行强先验以减轻其不适定性质。为此，大多数最先进的方法利用 CNN 来学习先验，因为它会产生卓越的视觉性能。这些方法训练模型使用示例对 [10, 25, 31] 将低质量图像映射到高质量图像，或者利用图像的内部重复统计来增强/放大图像 [40]。
        在内容交付系统中使用神经增强模型的主要范例包括传输紧凑的低分辨率/低质量内容，然后通过具有增强能力的模型在接收端进行后续增强 [51, 52]。通过这种方式，传输负载可通过升级因子（对于 SR）和压缩程度进行调整，从而控制系统的网络占用空间和相关的带宽要求。因此，神经增强在设计空间中开辟了一个新的维度——引入计算和网络资源之间的权衡，有效地克服了现有系统对网络资源的唯一依赖。为此，现有系统可以选择独立优化这些神经增强模型的利用 [26、29] 或将它们集成到现有的 ABR 算法中 [8、52]。
        神经增强的挑战。尽管有其优势，但神经增强 CNN 在计算和内存负担方面都非常昂贵；这些模型比图像判别模型大几个数量级，效率优化的 SR 模型 [11, 28] 以 GFLOPs 衡量，而它们的图像分类对应物 [15] 以 MFLOPs [2] 衡量。尽管通过在处理前将图像分割成块可以极大地解决内存占用问题，但计算成本仍然是实时应用程序的一大挑战 [8, 29]。
        此外，在标准数据集上训练的模型旨在泛化所有视频/图像，导致部署时性能不同的输出，并且经常在意外输入时灾难性地失败 [51]。另一方面，针对特定视频/图像定制 CNN 有助于缓解这种性能下降，但代价是对每个视频/图像进行额外训练。在这方面，系统设计人员需要根据目标用例来决定如何控制泛化-专业化的权衡。

3 THE LANDSCAPE OF CNN-DRIVEN VISUAL CONTENT DELIVERY(CNN 驱动的视觉内容交付的前景)

尽管存在部署障碍，但最近的几个框架已将神经增强方法纳入其管道，并引入了克服挑战的新技术。在这种情况下，我们调查了利用神经增强模型的最先进的视觉内容交付系统，根据内容类型（视频或图像）对它们进行分类，并分析它们如何抵消 a 过度的计算要求和 b 不同内容的性能可变性。

3.1 On-demand Content Delivery Systems（点播内容交付系统）

3.1.1 点播视频流（VOD）

        视频点播 (VOD) 服务允许用户在合适的时间从任何支持 Internet 的设备观看内容。用户选择要观看的视频，然后视频服务器将其提取并流式传输到用户设备。由于大多数 VOD 服务都是交互式的，因此点播视频流系统必须在不影响视觉质量的情况下产生低响应时间和最少的重新缓冲，以最大限度地提高 QoE。在实现这些目标时，瓶颈在于视频服务器和客户端之间的链路，连接带宽直接影响终端性能。
        Yeo et al. [51]展示了最早采用神经增强来克服这一限制的作品之一，并提供了一种利用客户计算能力的方法。具体来说，作者首先根据类别（篮球、田径等）将视频分组到集群中，然后为每个集群训练一个专门的 SR 模型 VDSR [25]，与使用相比减少了性能变化（挑战 b）单一的通用模型。他们还建议在调整帧的空间大小的基础上，使用更紧凑的表示，例如边缘或亮度通道，以进一步减少带宽和计算资源的使用。尽管这些紧凑的表示在 H.264 编解码器的实践中表现不佳，但它们在后来的工作中被采用，例如 Dejavu [17]，以应对不同用例中的挑战a。
        为了处理神经增强模型的过度计算需求（挑战 a），作者限制他们的系统处理高达 720p 的视频和托管强大桌面级 GPU 的目标同类客户端平台。此限制随后得到解决，以在其扩展的提议框架 - NAS [52] 中容纳具有异构计算能力的客户端。

在这里插入图片描述

在 NAS [52] 中，作者通过使用不同大小和计算工作量的early-exit SR 模型解决了异构客户端的问题，允许每个客户端根据其资源限制选择合适的模型（挑战 a）。为此，他们扩展了之前基于强化学习的 ABR 算法 [36]，不仅决定了比特率，还决定了每个视频片段要传输的 SR 模型的分数。为了进一步缓解挑战，作者部署了一个较小的 MDSR [31] 变体，以 16 位半精度浮点格式量化，并在客户端的桌面级 GPU 上执行它。最后，NAS 不是像 [51] 那样将视频分类为粗略的集群，而是通过首先预训练通用 SR 模型然后为每个视频微调专用模型来解决挑战 b。总体而言，如图 2a 所示，对于视频v,客户端使用SRP为第 i 个视频片段选择比特率 b和特定视频的 SR 模型的分数j并接收第 i 个低分辨率片段s_i^v以及特定模型的相关分数m_j^v

3.1.2 360° Video Streaming. Compared to regular videos

流式传输 360° 视频显着提高了带宽要求。为了缓解这种情况，现有系统采用视口预测技术 [13]，该技术估计用户将观看视频的哪个部分，并且仅下载该空间内容。然而，准确的视点预测仍然难以实现，这加剧了问题，因为在观看时需要获取当前视点的缺失补丁。尽管可以利用神经增强模型来缓解这些挑战，360°内容的更大空间维度进一步加剧了挑战a，需要专门的部署解决方案。

在这里插入图片描述

在这种情况下，Dasari 等人 [8] 提出了一个名为 PARSEC 的 360° 视频流框架（图 2b）。与之前的工作不同，作者扩展了 ABR 算法，以根据 1) 网络条件决定要放大的低分辨率 (LR) patches和要下载的高分辨率 (HR) patches的比特率客户端的计算资源，2）视口预测（参见图 2b 中的视口估计器）和 3）HR 和上采样patches的质量（PSNR）。由于所提出的 ABR 算法旨在最大化 QoE，因此可以有选择地决定放大或下载哪些patches，从而减轻了挑战 b。为了克服挑战 a，PARSEC 结合了 ×64 的极端放大因子，允许传输超 LR patches，以及手动调整的高效 SR 模型，类似于 NAS 使用的模型，专门用于每个视频片段。

3.1.3 On-demand Image Delivery

随着商品设备上的芯片组逐渐变得更强大 [2, 20]，这使得许多应用程序能够完全在设备上运行，避免卸载的延迟和隐私问题。在这个方向上，Lee 等人 [29] 提出了 MobiSR（图 2c），这是一个利用现代智能手机的异构计算引擎的系统，例如CPU、GPU 和 NPU，通过模型选择机制提供快速的图像超分辨率。
在这里插入图片描述

作为第一步，MobiSR 通过在参考模型（RCAN [58]）上应用广泛的压缩技术来推导出两个模型变体，然后将产生的帕累托最优模型分配给不同的可用计算引擎。作者表明，大型和小型模型在难以升级的patches上的表现相似，难以使用总变异度量 [39] 进行量化。利用这一洞察力，他们使用硬件感知调度程序（难度评估单元 (DEU)），使用更紧凑的模型 (m1) 快速处理难以升级的patches
，同时将更简单的patches提供给更大的patches。模型 (m2) 以获得更高的质量。因此，在满足应用程序的延迟限制（挑战 a）的同时，图像质量得到了最大化。
对于挑战 b ，MobiSR 经过优化以通过通用模型实现更高的整体性能，并且不采用模型专业化。最后，虽然 MobiSR 推动了设备端神经增强，但其实现的处理速率仍然不适合实时视频用例，但足以减少使用 Instagram 和 Reddit 等以图像为中心的应用程序时的数据使用量。

3.1.4 Cloud-assisted Image Delivery

在这里插入图片描述

为了适应实时用例，Yi 等人 [53] 提出了 Supremo（图 2d），该框架通过选择性地将计算卸载到云来实现实时设备上 SR。继 LiveNAS [26] 等其他工作之后，Supremo 使用 SR 模型的轻量级变体在资源丰富的服务器上运行，减轻挑战 a，并执行补丁选择以仅传输关键patches。具体来说，Supremo 的patches选择机制首先从每个图像中提取边缘并根据边缘强度对其进行排序。接下来，根据网络条件、延迟要求及其排名，将这些patches发送到云，通过 SR 模型进行上采样。为了进一步减少下载超解析patches所需的网络占用空间，Supremo 利用了超解析patches和双三次上采样patches之间差异的稀疏性。由于这些差异通常非常稀疏，因此通过残差编码器对它们进行编码会产生高度压缩的信号，从而最大限度地减少带宽。与 MobiSR 类似，Supremo 通过采用旨在最大化所有处理图像的平均升级性能的通用模型来处理挑战 b。

3.2 Live Content Streaming Systems(直播内容流媒体系统)

3.2.1 Streaming for Video Analytics

        视频分析管道 [12, 16, 56] 对用户输入执行实时智能任务，以便开发新的应用程序，例如增强和虚拟现实应用程序 [32]。这些任务从场景标记和对象检测到人脸识别。为了满足跨不同硬件平台的实时性能要求，此类系统通常依赖于以云为中心的解决方案。在此设置中，客户端设备将输入帧传输到强大的服务器进行分析，并仅收集结果。
在这里插入图片描述
        自然，这些视频分析框架可以受益于在低带宽设置下传输较低分辨率/质量的图像。然而，众所周知，使用低分辨率/质量的图像会降低准确性[5]。因此，这些框架可以使用额外的服务器端计算并部署神经增强模型来最小化目标任务的精度损失。为了实现这一目标，Wang 等人[46] 提出了 CloudSeg（图 3a），它联合训练一个 SR 模型（CARN [1]）及其目标分析任务，即语义分割（ICNet [59]）。具体来说，他们使用从 HR 和超分辨率图像之间的内容损失计算的梯度以及在 ICNet 中使用这两个图像之间的精度差异来更新 CARN.
        在推理过程中，SRP 将 LR 图像和超分辨图像都提供给金字塔分割模型。为了提高效率（挑战 a），CloudSeg 通过部署一个估计像素偏差的小型神经网络在客户端采用帧选择，以跳过冗余的陈旧帧。最后，只要分析准确度低于阈值，CloudSeg 就会通过回退到高分辨率流来克服挑战 b

3.2.2 Video-Conferencing

在这里插入图片描述
        为了维持呼叫者之间的交互式通信，视频会议需要较短的响应时间。为了实现这一目标，现有服务 [14] 通常采用保守的策略，放宽带宽要求，但也会损害视觉质量。
        在这种情况下，胡等人[17] 观察到，与通用实时流媒体相比，视频会议具有重复会话和设计的 Dejavu（图 3b）之间的视觉相似性，以利用这些独特的计算和专业化机会。开发的系统从离线训练每个调用者专用的图像增强模型开始（挑战 b）。在这个过程中，模型学习通过提高编码率而不改变分辨率来提高视频质量。
        在部署时，当建立视频会议会话时，关联的特定于呼叫者的增强模型从服务器传输到接收器（反之亦然）（图 3b 中的 m_SR^{k,j}）。在呼叫期间，来自呼叫者的帧在传输之前被重新编码为较低质量，从而减少带宽使用，并且通过呼叫者特定的增强模型在接收者侧增强质量。
        为了解决挑战 a，Dejavu 使用了多种技术。首先，EDSR 模型 [31] 的一个大幅缩小的变体用于质量增强的 CNN。接下来，模型仅在亮度 (Y) 通道上进行训练，而不是典型的 RGB 输入。同时，假设每个调用方都有一个强大的 GPU。最后，Dejavu 引入了patches评分 CNN，可预测每个图像补丁的预期质量增益。以这种方式，只有top-k有望产生最高质量的patches改进由质量增强神经网络处理以降低运行时资源使用

3.2.3 Live Video Streaming

        与专注于存储内容的 VOD 服务相比，直播流的目标是实时制作的内容。在这种情况下，上游客户端到服务器通道会引入额外的瓶颈，因为流媒体用户的质量下降会传播到观看视频的最终用户。这一特性给维持高 QoE 带来了额外的挑战。此外，虽然存储在 VOD 中的内容或视频会议的重复允许增强模型的离线专业化，但实时流的实时性质需要在线方法来根据传入视频定制模型。
        为了解决这个问题，Kim 等人 [26] 提出了 LiveNAS 系统（图 3c），该系统侧重于优化从流媒体到服务器的上游传输。在这个系统中，一个预先训练的通用 SR 模型驻留在服务器端。与 NAS [52] 类似，所选模型是 MDSR [31] 的轻量级变体。部署后，流媒体上传一系列低分辨率帧，然后在服务器端由 SR 处理器（图 3c 中的 SRP）增强。
在这里插入图片描述
        为了抵消不同内容之间的性能差异（挑战 b），LiveNAS 引入了一种在线学习方案，该方案针对特定的看不见的视频定制模型。该方案包括使用训练采样器有选择地挑选高质量的patches，并使用 Pacer 将它们从流媒体传输到服务器（图 3c）。由于在线培训所需的补丁与视频共享带宽，因此仅发送具有最高预期影响的补丁至关重要。因此，训练采样器通过计算 HR 补丁与其双线性插值 LR 编码之间的 PSNR 并选择最低 PSNR 补丁来检测难以高质量压缩的补丁。另一方面，Pacer 负责通过质量优化调度算法自适应地调整各自的比特率，从而在要放大的低分辨率补丁和高分辨率训练补丁之间分配可用带宽（Sched in Fig . 3c)。
        在服务器端，在线训练器使用传输的高分辨率补丁来微调 SR 模型。 Online Trainer 的调用频率是基于自适应机制控制的，该机制检测训练饱和度或场景变化，通过跟踪最新模型的性能增益以及与初始模型进行比较。因此，每个直播流的训练量都经过调整，以在不过度使用资源的情况下最大限度地提高性能。最后，为了缓解挑战，LiveNAS 通过在服务器上并行化多个 GPU（例如，三个 GPU 用于 1080p 到 4K 实时增强）的 SR 计算来支持横向扩展执行

4 FUTURE DIRECTIONS

        在本节中，我们提出了从最新的计算机视觉研究中汲取的各种方法，并提供有关神经增强如何进一步使内容交付系统受益的见解
        视觉质量。神经增强算法的主要开放挑战之一是设计一个与人类评估者很好地对应的指标。基于失真的指标，例如 PSNR 或 SSIM [47]，已被广泛证明可以以感知质量为代价提高图像保真度，从而导致模糊和不自然的结果 [27]。另一方面，仅针对基于感知的度量（例如 NIQE [37] 和 LPIPS [57]1）进行优化将导致更自然的图像，但会牺牲保真度，因此偶尔会出现图像伪影。在数学上，保真度和感知质量之间存在权衡 [3]。
        由于所有现有的神经增强框架（第 3 节）都使用基于失真的度量来训练它们的模型，因此这些模型的输出是准确的，但可能看起来不自然。尽管这将有利于 CloudSeg 等视频分析框架，但输出模糊会破坏 Dejavu 和 LiveNAS 等其他内容流媒体系统的目标。为了弥补这一差距，这些系统可以通过利用计算机视觉中最近提出的方法来训练和优化其神经增强模型来进一步受益。这些工作的重点是通过优化两个指标 [28, 45]、基于失真和基于感知的输出图像 [9] 或模型 [44, 45] 之间的插值，在图像保真度和感知质量之间找到最佳点，或引入额外的先验 [34, 42] 以减轻因优化基于感知的指标而导致的不良影响。最后，对于基于视频的解决方案，时间插值方法 [48, 60] 可以使系统通过估计中间帧而不是传输它们来提高实现的帧速率，从而提高 QoE。
        效率优化模型。大多数神经增强框架通常采用流行的成熟 SR 模型（表 1）并对其进行修改，以加快训练和推理速度或适应客户端计算的限制。然而，这些修订通常不是最佳的，或者在某些情况下是有害的。例如，PARSEC 使用批量归一化 [21] 来加速训练、降低图像保真度 [31] 并引入图像伪影 [45]。因此，这些系统不是天真地缩小和修改成熟的 SR 模型，而是利用现成的手动设计的高效模型，例如 IDN [19] - 已经被 Supremo 使用，自动设计的变体例如 ESRN [43] 和 TPSR [28] 甚至二值化 SR 模型 [35, 50]，以便以较低的计算成本提供更高质量的增强（挑战 a）。
        图像重新缩放。将 SR 模型部署为神经增强单元的主要好处之一是它能够在没有高分辨率地面实况的情况下工作。然而，在许多内容交付设置中，基本事实是可用的。因此，许多这些工作可以在使用神经图像重新缩放技术的放大过程中利用缩小操作来抵消性能可变性（挑战 b）并进一步促进图像重建。例如，降尺度 CNN 可以与现有的 SR 模型联合训练，如 [24] 所示，也可以分别利用编码器-解码器框架和可逆神经网络等技术，如 [30] 和 [49] 所示。
        尽管有好处，但与插值方法相比，基于神经的图像重新缩放会产生执行缩小神经网络的额外成本，利用额外的计算资源来更稳健地提高视觉质量。因此，图像重新缩放技术可能更适合按需视频系统，例如 NAS 和 PARSEC，其中降尺度成本是跨视频的离线一次性成本。
        元学习。为了缓解挑战 a 和 b，许多系统在对每个特定图像/视频进行离线或在线微调之前，离线预训练其通用神经增强网络。例如，NAS 首先训练通用模型，然后使用其权重为每个视频微调单独的模型，以分摊一次性离线训练成本。为了在微调过程中加快和提高性能，这些工作可以采用元学习方法来找到一组更优化的初始化参数进行微调。具体来说，通过在外部数据集上进行元学习来预训练神经增强模型将在微调阶段需要更少的梯度更新，因此与天真微调相比，需要更少的计算资源并导致更好的性能[38, 41]。

5 CONCLUSION

随着未来几年内容流量需求的增长，神经增强模型的使用将在内容交付系统设计中获得更多吸引力，不仅在现有应用程序中，而且在新兴技术中，如增强现实/虚拟现实 [22, 33] 和 Telepres - ence [55]。同时，随着我们的日常设备变得越来越强大，这些模型最终将完全在设备上运行，将重点从满足严格的计算预算转移到最大化视觉质量。通过整合来自计算机视觉和系统社区的想法，我们设想将两端对齐，以实现更有效和可部署的神经增强。