Netflix视频质量感知评价模型之路

最新推荐文章于 2022-02-01 22:47:53 发布

LiveVideoStack_

最新推荐文章于 2022-02-01 22:47:53 发布

阅读量1.3w

点赞数 1

本文链接：https://blog.csdn.net/vn9plgzvnps1522s82g/article/details/79145145

版权

Netflix为了准确评价视频流质量，开发了VMAF（视频多方法评估融合）模型，该模型结合多种基本质量测度，通过机器学习算法预测主观质量。VMAF在Netflix的数据集上表现出优于传统指标的性能，如PSNR和SSIM。通过开源VMAF开发工具包，Netflix邀请业界合作改进视频质量评估。

摘要由CSDN通过智能技术生成

尽管主观评定被认为是最佳的视频质量评价方式，但对于每天新增海量视频的平台而言，采用人工方式评定是不现实的。Netflix实践出自己的画质评价模型——VMAF。本文详细阐述了VMAF的实现与演进，LiveVideoStack对其进行了摘译。如果您对音视频技术的未来有实践分析与洞见，欢迎联系 contribute@livevideostack.com。

文 / Zhi Li，Anne Aaron，Ioannis Katsavounidis，Anush Moorthy，Megha Manohara

译 / 鸿蒙

在Netflix公司，我们很关注视频质量，同时也关注如何规模化地精确评价视频质量。我们提出了视频多方法评估融合（VMAF）评价模型——试图反映观众对我们流媒体质量的感受。目前，我们正在将这个工具开源，并邀请研究界就这个重要课题与我们进行合作。

我们追求高品质的视频呈现

我们努力为会员提供绝佳的观看体验：流畅的视频播放、没有令人厌恶的图像失真。在我们的努力中，非常重要的一部分工作是，在考虑到用户网络带宽和观看设备的限制下，我们尽可能地感知并提供最佳质量的视频流。我们一直在通过各种各样的方法努力实现这一目标。

首先，我们在视频编码领域进行创新。流式视频需要使用H.264 / AVC、HEVC和VP9等标准进行压缩，才能以合理的比特率进行流式传输。当视频被压缩太多或压缩不当时，这些技术会引入质量损伤，即压缩失真。专家称他们为“阻塞”、“响铃”或“蚊子噪音”，但对于观众来说，就是视频看起来不对劲。为此，我们定期比较编解码器提供商的压缩效率、稳定性和性能，并整合市场上最好的解决方案。我们评估不同的视频编码标准，以确保我们保持在压缩技术的前沿。例如，我们比较H.264 / AVC、HEVC和VP9，并将在近期实验由开放媒体联盟（AOM）和联合视频探索组（JVET）开发的下一代解码器。即使在既定的标准之内，为了充分利用现有的工具集，我们仍然继续在解决方案和速率分配算法上进行实验（请参阅标题编码优化项目）。

我们将Netflix视频流编码在分布式云媒体管道中，方便扩展以满足更多业务需求。为了最大限度地减少不良视频源交付、软件报错和云实例不可预测性（瞬态错误）等影响，我们对管道中的各个点进行自动质量监控。通过这种监控，我们试图检测视频从进入管道，到经过每个转换点的质量问题。

最后，当我们在Netflix生态系统的各个领域进行迭代（例如自适应流算法或内容交付网络算法）并运行A / B测试时，我们努力确保通过系统的改良，可以维持或改进视频质量。例如，旨在减少回放延迟或重新缓冲的自适应流算法的改进，不应该降低流会话中的整体视频质量。

上述所有具有挑战性的工作都取决于一个基本前提：我们可以准确有效地衡量大量视频流的感知质量。一般来说，在视频编解码器的开发和研究中，广泛使用两种方法来评估视频质量：1）视觉主观测试和2）简单测度指标的计算，例如PSNR或最近推出的SSIM[1]。

毫无疑问，人工目视检查在操作上和经济上都是不可行的。

基于我们产品的大吞吐量，使用A / B测试来监测和编码研究实验。图像质量评估是一个老问题，已经有许多简单和实用的解决方案。均方差（MSE）、峰值信噪比（PSNR）和结构相似性指数（SSIM）是最初为图像设计的测度指标的例子，后来扩展到视频。这些测度指标经常用于在编解码器（“in-loop”）内优化编码决策和报告编码视频的最终质量。尽管该领域的研究人员和工程师都很清楚PSNR并不能一贯地反映人类的感知，但它仍然是编解码器比较和编解码器标准化工作的事实标准。

建立Netflix相关数据集

我们采用数据驱动的方法来评估视频质量评价算法。第一步是采集一个与我们用例相关的数据集。尽管用于设计和测试视频质量指标的公开数据库有很多，但它们往往缺乏与实用流媒体服务（如Netflix）相关的内容多样性。它们中的许多在源的质量和编码方面已经不再是最先进的技术，例如，它们包含标准清晰度（SD），且仅涵盖较早的压缩标准。此外，由于评估视频质量要比测度压缩失真普遍得多，所以现有数据库试图捕获更大范围的失真，这些失真不仅由压缩引起，还可能由传输损耗、随机噪声和几何变换等引起。例如，观看黑白监控设备传输的低分辨率视频（640×480），与在客厅中观看自己喜爱的Netflix节目相比，呈现出明显不同的观看体验。

Netflix的流媒体服务涌现出一系列独特的挑战，也为设计精确反映流媒体视频质量的感知指标提供了机会。例如：

视频源的特点。Netflix提供大量的电影和电视节目，这些节目涵盖了儿童内容、动画、快速移动动作影片、带有原始素材的纪录片等不同类型。此外，它们还呈现出不同的低级源特征，如胶片噪点、传感器噪声、计算机纹理、纯黑场景或亮色彩。过去开发的许多质量测度指标都没有经过调整来适应源内容的上述巨大差异。例如，许多现有的数据库缺少动画内容，并且大多数都没有考虑胶片噪点，即便胶片噪点是一种在专业娱乐内容中非常普遍的信号特征。
失真的来源。由于Netflix视频流使用可靠的传输控制协议（TCP）传输，因此数据包丢失和bit错误不是视觉失真的来源。编码过程中留下的两种类型的失真，最终影响观看者的体验质量（QoE）：压缩失真（由于是有损压缩）和缩放失真（在较低比特率时，视频会在压缩之前进行降采样，并在用户设备上进行升采样）。通过定制一个质量测度指标来仅覆盖压缩和缩放失真，用通用性换取准确性，其准确性有望超越一般标准。

为了构建更适合Netflix用例的数据集，我们从Netflix目录中流行的电视节目和电影中选择了每个长度为6秒钟的34个源片段（也称为参考视频）样本，并将它们与选择的公共可用片段进行整合。源片段涵盖了广泛的高级特征（动画、室内/室外、摄像头运动、脸部特写、人物、水、明显突出、物体数量）和低级特征（胶片噪点、亮度、对比度、纹理、运动、颜色变化、颜色丰富度、清晰度）。使用源片段，我们编码的H.264 / AVC视频流，分辨率从384×288到1920×1080，比特率从375 kbps到20,000 kbps，输出了约300个有损的视频。这掠过了广阔的视频比特率和分辨率范围，反映了Netflix会员网络状况的巨大差异。

然后，我们进行主观测试，以确定非专业观察者如何评估编码视频相对于源剪辑的失真。在标准化的主观测试中，我们使用的方法被称为双重刺激有损缩放（DSIS）。在受约束的室内照明下（按照建议书ITU-R BT.500-13[2]的规定），参考视频和失真视频在消费级电视机上依次播放。如果失真视频以比参考视频更小的分辨率进行编码，则视频会首先被放大到与源视频分辨率相同后，再在电视上显示。观察者坐在类似起居室的沙发上，以1（失真令人厌烦）到5（失真无法察觉）进行评分。所有观察者的分数合起来为每个视频产生一个差分平均意见分数或DMOS，并在0到100的范围内归一化，其中，参考视频的分数为100。本文将参考视频、失真视频和DMOS分数作为NFLX视频数据集。

传统的视频质量测度指标

广泛使用的传统视频质量指标如何与NFLX视频数据集的“事实上”的DMOS分数相关联？

一个视觉例子

从上图，我们看到从4个不同的失真视频中捕获的静态帧的部分; 顶部的两个视频的PSNR值约31dB，而底部的两个视频的PSNR值约34dB。然而，人们几乎不能注意到“人群”视频的差异，而两个“狐狸”视频的差别却很明显。人类观察者将这两个“人群”视频DMOS分数评为82（顶部）和96（底部），而将两个“狐狸”视频的DMOS分数分别评为27（顶部）和58（底部）。

详细的结果

下面的图表是散点图，x轴上表示观察者的DMOS分数，y轴上表示不同质量测度指标的预测得分。这些图是从NFLX