利用 AI 跟踪和优化视频质量

最新推荐文章于 2024-09-03 16:26:19 发布

HeadSpinDante

最新推荐文章于 2024-09-03 16:26:19 发布

阅读量455

点赞数

分类专栏： HeadSpin 自动化音视频文章标签：人工智能音视频 HeadSpin MOS

原文链接：https://www.headspin.io/blog/harnessing-ai-to-track-and-optimize-video-quality

版权

HeadSpin 同时被 3 个专栏收录

61 篇文章 1 订阅

订阅专栏

自动化

25 篇文章 0 订阅

订阅专栏

音视频

3 篇文章 0 订阅

订阅专栏

对于众多公司而言，提供优质的富媒体体验至关重要。但是，在无法明确要求观众对视频质量进行评级或参考视频不可用的许多情况下，衡量观众实际体验的视频质量即使不是不可能，也是很困难的。

HeadSpin 正在申请专利的免参考视频 MOS 或 Mean Opinion Score 为传统的基于调查和全参考算法方法提供灵活、准确和可扩展的替代方案，使用人工智能 (AI) 解决可靠评估感知视频质量的挑战 .

在高质量的野生动物视频中，背景的模糊是故意聚焦于动物的结果。这是一个示例，说明可以训练 AI 深度学习模型进行识别，但会被基于视频质量指标的参数模型完全忽略。

视频质量的重要性

糟糕的感受很重要。它们会导致用户不满意，而不满意的用户不会长时间保持不满意——他们会去其他地方。 Akamai 的一份报告发现，单个缓冲事件会导致用户满意度下降 14%。相反，更高的比特率可以将观众参与度提高 10% 以上。

今天，富媒体内容，包括社交平台上的实时视频流、视频会议和聊天服务、手机游戏和电视广播，代表了网络流量的最大份额和用户体验的主要部分。糟糕的数字体验可能是由视频源问题、导致数据包丢失和流延迟的网络条件，甚至导致渲染问题的设备特定问题造成的。当体验不理想时，跨领域的任意数量的元素都可能是罪魁祸首，对于组织而言，能够实时了解并优化在不同位置的真实设备上的视频内容交付质量至关重要。

传统的视频质量测量方法

视频质量传统上是使用称为平均意见得分 (MOS) 的指标进行评估的，该指标是用户评审团对感知视频质量的主观衡量标准。 MOS 分数通常在质量评估测试中收集，例如当 WhatsApp 要求您对视频通话的质量进行评分时，但也可以在没有真实用户反馈的情况下通过算法预测。

对于有参考视频的场景，现有的标准可以用来建立视频质量MOS：

国际电信联盟无线电通信部门（ITU-R）。 ITU-R 有明确定义的标准，用于开发用于评估视频质量 MOS 的实验。使用该标准，视频质量 MOS 可以根据从参考视频和测试视频中得出的参数进行计算。视频 MOS 的估计是根据使用这些视频元数据参数构建的参数模型计算得出的，该参数根据用户研究的主观质量分数进行回归。
视频多方法评估融合 (VMAF)。 VMAF 是 Netflix 开发的一种开源算法，它使用对参考视频和观察视频进行严格的逐帧比较，以预测视频质量 MOS。这种方法虽然提供了许多好处，但仅对单个参考视频的变体（例如，视频的多个压缩版本）才有意义。

对于这两种标准，团队都面临着很大的限制。

在许多情况下，根本无法建立参考视频。这适用于游戏场景、实时视频流、视频通话以及许多其他动态生成内容的情况。
参考视频通常成本太高或资源密集，无法创建和维护，即使它们可能存在。这通常适用于广播电视和许多视频流场景。
来自完整参考方法的 MOS 分数无法在不同的源文件之间进行有意义的比较。当需要比较单个参考视频的变体时，它们通常仅对有限数量的用例有用，例如视频压缩优化。
真实世界的用例通常会打破全参考视频 MOS 技术中的基本假设。例如，即使源视频相同，设备上视频播放的屏幕录制也会因每次播放而略有不同。这是我们的无参考 MOS 的部分动机。
许多完整的参考 MOS 分数在感知质量方面并没有很好的基础。例如，如果参考视频本身质量低，VMAF 会产生高分，而真实用户不会。
视频技术和围绕该技术的面向消费者的内容在不断发展。随着技术标准的不断变化，上述现有标准和解决方案没有持续改进和演进的策略。

随着团队继续专注于提供高质量的富媒体内容，这些限制带来了重大挑战。

介绍 HeadSpin 无参考视频 MOS

为了解决传统 MOS 方法的挑战和局限性，HeadSpin 的数据科学团队利用我们 5 年多的业务经验开发了一个完全基于 AI 的无参考视频 MOS 模型。我们正在申请专利的创新算法通过基于预测机器学习模型对最终用户感知的视频内容的真实主观质量分数进行无参考估计，从而在视频质量测量方面取得突破。

无参考方法使测试/QA 和开发团队能够快速且经济高效地大规模测试、监控和分析所交付视频的质量。

主要特点

简单、可扩展的实现
HeadSpin 的 MOS 可以应用于任何视频内容，无论其来源如何。它可以跨设备、直接在平台上捕获的视频，甚至通过我们的 API 导入平台的第三方视频无缝运行。根据从视频中提取的空间和时间特征，为所提供视频中的每一帧估计 MOS 分数。

无参考分析
我们的无参考方法使我们的用户无需任何参考源视频或比较过程即可衡量视频质量。此外，HeadSpin 平台还提供了一套全面的无参考视频质量指标，可跟踪多个视频特征，例如块状、模糊度和对比度。这些附加指标与视频质量 MOS 时间序列一起显示在时间对齐的视图中，可用于诊断或解释表现出较差视频质量分数的区域。当与我们的专家系统 AI 分析（例如视频质量差问题卡）配合使用时，该解决方案将深入了解感知视频质量问题，以及这些问题与其他应用程序相关指标之间的相关性。

HeadSpin 在时间对齐的视图中揭示对感知视频质量问题的见解——突出显示逐帧 MOS 分数与其他视频和应用程序相关指标之间的相关性。

灵活、准确的机器学习模型
我们的无参考视频 MOS 是非参数的，并采用卷积神经网络技术来暴露感知视频质量特征。它是市场上唯一不明确依赖其他指标来获得结果的 MOS。与源自视频质量指标（例如模糊度、块状、抖动等）的参数化方法不同，后者易于误报，例如来自方形或矩形 UI 元素、闪屏、徽标、风格像素化、半透明元素和游戏特效，我们基于 AI 的 MOS 已经过训练以识别这些场景。此外，人工智能将准确识别可能被视为低质量的视频流，即使它以高分辨率捕获。这种独特的方法使 HeadSpin 能够自由和灵活地捕获和识别 ITU-R 和 VMAF 等现有标准目前未发现的视频质量问题。

前所未有的数据财富
HeadSpin 采取了一种创新方法，利用我们的专业知识和资源来创建一个基于现实世界视频流用例的模型，以便无需参考比较就可以估计视频的质量。我们策划了同类中最大的视频质量数据集，其中包含通过 HeadSpin 全球设备基础设施在真实世界条件下捕获的数千个独特视频。 AI 模型是在捕获的视频子集上进行训练的，我们在来自用户研究的 700 多个视频上有 60,000 个标签。在独特视频的多样性、来自不同内容提供商的不同内容以及从高质量标签商处采购标签方面，我们的无参考视频 MOS 模型基于该领域最全面的数据集。

持续优化
由于我们深度学习架构的性质，我们的模型不断发展。结合来自最新视频流应用程序的数据，机器学习模型能够准确预测其分析的任何视频的 MOS。不断将客户反馈纳入模型开发过程（通过我们的视频注释应用程序）使我们能够随着时间的推移提高 AI 模型的准确性。

更好的结合使用
HeadSpin 还支持平台上的全参考 VMAF MOS。虽然 VMAF 更适合指示相对于源的退化，但我们的无参考 MOS 将指示最终用户感知的绝对视频质量。我们的许多用户同时使用两者作为补充措施。

视频 MOS 用例

以下是我们客户采用 HeadSpin 视频质量 MOS 的多种方式的几个示例。

测量实时视频流
实时视频流媒体内容每天都越来越受欢迎。越来越多的平台为用户提供服务和消费直播视频内容的能力。跟踪这些直播视频的感知质量对于了解用户如何感知平台本身的质量非常重要。 HeadSpin 视频 MOS 凭借其无参考方法，可帮助我们的用户了解实时流媒体内容的视频质量。

基于参考的视频流测量
在有参考视频的情况下，HeadSpin 的确定性 AI 算法可用于将后续或并行测试与参考进行比较，以提供视频质量的比较。用户经常重复地跨设备、位置和运营商设置系统测试，以更好地了解这些变量如何影响从其平台提供的视频内容的感知。

统计分析
我们的用户经常利用我们的无参考视频 MOS 算法在许多实验中聚合 MOS。这种聚合情报可用于开发用于检验假设的统计方法。例如，他们可以使用我们的 AI 平台来测试一个假设，即移动应用程序上的流媒体视频在互联网使用高峰期的质量差异比非高峰期更大。 HeadSpin 可用于检测此实验并收集测试此假设所需的 MOS 数据。