视频编解码技术日新月异,新的编解码技术赋予视频业务新的应用场景和新的用户视听体验。同时,视频作为带宽消耗大户,如何在视听体验和视频带宽之间取得最优的平衡是一个永恒的话题。视频质量评测主要用来回答:体验是否改善、带宽是否合理等问题。
然而,在实际中,受限于各种因素,视频质量评测在实践中存在着诸多问题:主观评估的置信度如何保证?如何进行规模化的主观评估?LiveVideoStackCon 2022北京站邀请来自百度的王伟老师为大家介绍百度视频质量评测的发展之路 。
文/王伟
编辑/LiveVideoStack
大家好,我是来自百度的王伟,近几年我一直在开展视频质量评估方面的工作,并经历了百度视频质量评估从无到有,从不置信到置信,从小规模到大规模的整个过程。
目前来看,我们的视频质量评测服务为百度内部所有视频相关业务提供了基础支撑,2022年整体视频评估量级达到了十几万以上。回顾整个发展历程,我们遇到了很多问题,也进行了很多探索。今天很高兴可以与大家分享我们对视频评估的认知与实践。
整体会从四个方面进行介绍,首先介绍视频质量评估的重要性,其次是面临的问题和挑战,接下来介绍面对问题我们的解决方案,最后会介绍在百度业务线的实践情况。
-01-
视频质量评测的重要性
判断一件事的重要性,确定它是否值得去做,我总结了两点,首先是确认该事物的流行度和趋势。
针对视频质量评估,我整理了两项数据,一是谷歌搜索近二十年来关于视频质量关键词的搜索趋势。整体来看,从2022年至今搜索热度持续走高,未来也可能持续受到重视。二是LiveVideoStackCon自2017年至今关于视频质量评测的议题也呈逐年上升趋势。从趋势和流行度角度分析,视频质量评测已成为一项比较重要的工作。
其次是分析视频质量评测工作在视频业务中的地位。视频质量评测体系是画质增强、编解码器优化和QoE工作的基石,可以说它是视频行业这片红海中的一块蓝岛,值得我们进行研究。对于TO B厂商,视频质量评测工作更是大有可为,拥有成熟的视频质量评测体系可以协助对各类增强算法和HDR等技术的优劣进行判断。相信该项工作后续在行业内会越加重要。
-02-
面临的问题和挑战
接下来介绍在视频质量评测工作中我们面临的问题和挑战。具体将从四个角度来分析,首先介绍视频质量评测体系,其次是传统算法在实践中遇到的问题,第三是主观评测在实践中存在的问题,最后是业务所面临的问题。
大家对视频质量评测体系中的主观评测和客观评测比较了解,工程师出身的从业者可能会更重视算法,轻视主客观评测。
但实际上,经过实践分析发现,主观评测是视频质量评测体系中不可或缺的重要组成部分,例如在HDR/SDR评估场景下,视频质量和设备以及屏幕亮度等因素都有直接关系,难以仅从算法角度来衡量。另外如果涉及编解码器采购,无论销售方提供的算法跑分有多高,我们依然无法轻易信任,视频质量的好坏最终还是要通过主观评估的方式来判断。
检测&分析是我们结合实践在体系中加入的环节,因为很多编解码器不仅针对CODEC,也可能会对帧序列等方面进行优化。例如,在某次CODEC上线后,我们发现虽然视频画质得到了提升,但因为视频帧的间隔序列被调整,导致视频卡顿率暴增。所以,我们在主客观评测的基础上额外增加了检测&分析环节,形成了目前的视频质量评测体系。
接下来介绍传统算法在实践中遇到的问题。我们认为传统算法是一把双刃剑,使用不当会导致各种错误结论。以PSNR为例,由于它是在信号级别进行计算,并且是在整帧的范围内计算折损,导致它和主观感知的差异非常大。
从上图右侧的图像中可以发现,B视频中天空和云朵的位置发生了较大折损,但它的PSNR值达到了38,对应的MOS分几乎到4,评价结果反而不错,这明显不符合人眼的主观感知。
其次,如果两个视频的PSNR值一致,该如何处理?针对4K等高清晰度视频,在全局空间上计算PSNR值很可能会出现两个视频结果一致的情况。上图中左侧的图像,两个视频的PSNR值都为42,仅依据PSNR的结果难以判断哪个视频质量更优。
SSIM存在什么问题呢?SSIM解决了区块的问题,并且引入了亮度、对比度和结构信息,它总体要