CVPR 2024 | Modular Blind Video Quality Assessment：模块化无参视频质量评估

字节跳动技术团队

已于 2024-04-02 10:11:58 修改

阅读量1w

点赞数 4

文章标签：音视频

于 2024-03-05 18:30:52 首次发布

本文链接：https://blog.csdn.net/ByteDanceTech/article/details/136497349

版权

无参视频质量评估 (Blind Video Quality Assessment，BVQA) 在评估和改善各种视频平台并服务用户的观看体验方面发挥着关键作用。当前基于深度学习的模型主要以下采样/局部块采样的形式分析视频内容，而忽视了实际空域分辨率和时域帧率对视频质量的影响，随着高分辨率和高帧率视频投稿逐渐普及，特别是跨分辨率/帧率视频转码档位画质评估场景中，这种影响变得更加不可忽视。在本文中，我们提出了一种模块化 BVQA 模型，以及一种训练该模型以提高其模块化性的方法。我们的模型包括基础质量预测模块、空域矫正模块和时域矫正模块，分别显式地响应视频质量的视觉内容和失真、空域分辨率和时域帧率变化情况。我们用提出的模块化BVQA模型在专业生成的内容和用户生成的内容视频数据库上进行了大量实验。实验表明，我们的质量模型实现了优于当前方法或相近的性能。此外，模块化的模型为分析现有视频质量数据库的空间和时间复杂性提供了机会。最后，我们的 BVQA 模型可以轻量高效地添加其他与质量相关的视频属性，例如动态范围和色域作为额外的矫正模块。

背景

多年来，研究人员从心理物理学和感知研究中收集了大量证据，证明更高的空域分辨率和更高的帧速率对视频主观画质有积极的影响。具体而言，感知质量取决于视频内容，特别是空域和时域复杂性。针对这些主观发现，早期的知识驱动的BVQA模型直接将空域分辨率和帧速率参数作为压缩视频质量预测的输入的一部分。尽管这种方法非常简单，但这些视频属性参数与内容和失真无关，因此它们与感知的视频质量不太相关。

基于卷积神经网络（CNN）的数据驱动的 BVQA 方法面临的计算问题十分明显。它们几乎没有尝试评估全尺寸视频，主要原因是计算复杂度很高，尤其是在处理高分辨率和帧速率的视频时&#