来源:https://ece.uwaterloo.ca/~z70wang/publications/HVEI17_PsyRD.pdf
作者:Zhengfang Duanmu, Kai Zeng, Zhou Wang and Mahzar Eisapour
Dept. of Electrical and Computer Engineering, University of Waterloo, Waterloo, ON, Canada
一、摘要
心理视觉率失真优化(Psy-RD)已经在工业视频编码实践中,用作提升视频主观质量的工具。它通过x264的广泛普及获得了极大的普及。然而很少有人验证Psy-RD对主观质量的影响,从而为该功能实际使用和未来发展提供有意义的指导。这篇文章中,我们构建了一个包含不同强度和比特率的Psy-RD视频编码序列的数据库。然后研究用户主观评价,评估和比较Psy-RD视频编码的质量。结果发现,大家对视频序列的主观感受相当一致。不幸的是,Psy-RD优化对视频质量的影响并不令人鼓舞。甚至Psy-RD ON与Psy-RD OFF的感知质量增益平均为负。我们的结论是谨慎使用Psy-RD优化。进一步的研究表明,大多数最先进的全参考客观质量模型与整体的主观实验结果很好地相关。但就两者之间的比较而言Psy-RD OFF情况下,误报率略微高一些。
二、介绍
视频编码的目的是减少信道吞吐量、降低视频失真;视频编码的基本难题是如何在码率和失真之间获得最佳权衡。目前比较流行使用的方法是RDO率失真优化模型。实际应用中,大多数使用绝对误差和(SAD)、峰值信噪比(PSNR)作为失真模型。然而,这些模型并不能真实反映主观视频质量。Psychovisual rate-distortion optimization已经被提出来,作为复杂的客观模型,用于更接近主观视频质量。Pyschovisual optimization已经成为学术界研究的重要课题[1,2,3,4,5,6]。在业界,DivX Labs首次尝试将心理视觉增强引入他们的Dr.DivX [7]编解码器,基于Just Noticeable Difference(JND)的视觉特性。 DivX博士分析每一帧,并专注于被认为对人眼更明显的区域。Psychovisual Enhancements有两个可选设置,即shaping和masking。shaping尝试增强纹理中的精细细节,并掩盖复杂纹理中源和编码视频之间的差异,使其不太明显。masking使用稍微不同的算法,由此分析帧中的每个块和周围的块,使得心理视觉增强引入最小的伪像。另一种心理视觉优化的评分失真优化,即Psy-RD [8],被包含在x264编码器中,并已广泛应用于视频编码领域。Psy-RD的原理是人眼更喜欢图像具有相似的复杂性而非看起来与原始图像相似。换句话说,人类宁愿看到一个有点扭曲但细节丰富的块,而不是一个非扭曲但模糊的块。因此,在x264编码器中引入了图像的高频分量与低频分量区域中的额外伪像之间的折衷,以增加图像的复杂性,尤其是在其被高度压缩时。这与传统的图像质量评估理念非常不同。它考虑了人类视觉对比灵敏度在频率上的变化,并倾向于牺牲高能量成分的质量。在过去几年中,x264编码器的许多用户声称在打开Psy-RD优化时存在感知质量改进。然而,就我们所知,Psy-RD的表现尚未得到系统研究。在[9]中,测试了具有不同x264编码器设置(包括Psy-RD)的5个视频序列,结论是Psy-RD达到了默认设置的边际增益。到目前为止,还没有进行由不同比特率和Psy-RD强度组成的广泛测试,更重要的是,系统主观验证完全缺失。因此,是否应该打开Psy-RD选项以及应该使用什么样的强度来获得最佳视觉质量仍然是未知的。
这项工作的目的首先是建立一个包含不同Psy-RD强度和比特率级别的Psy-RD编码视频的数据库。然后使用测试序列进行主观实验,并获得每个序列的MOS分。结果可用于1)研究评估Psy-RD编码视频的人的主观感受,并分析不同Psy-RD设置的影响;2)测试现有客观视频质量评估算法在预测心理视觉率失真增强下的主观质量方面的性能,并探索改进它们的潜在方法。
三、视频数据库和主观质量评估
1)视频数据库
选择15个1280*720分辨率的原始高清视频,涵盖各种内容类型,包括人类、植物、自然风景、人造建筑和计算机合成的风景。
如上图1显示了所有测试视频的屏幕截图。所有视频的持续时间均为10秒,帧率为25fps。我们使用x264编码器以四种不同的码率(250 kbps,500 kbps,950 kbps和1300 kbps)和四个Psy-RD强度(0,0.6,1.0和2.0)从每个参考序列创建了16个测试序列覆盖Psy-RD工具常用的工作范围。
2)主观质量评估
主观实验是在Intel(R) Core(TM) i7-2600 dual 3.40GHz CPU的PC上进行的。所有视频都用LCD显示器按照实际像素分辨率显示,分辨率为2560*1600,真彩色(32位),60Hz。显示器根据ITU-T BT.500 [10]的建议进行校准。测试环境设置为具有普通照明级别的普通室内办公室工作空间。使用定制的主观视频质量评估实验程序在屏幕上呈现视频并收集主观意见分数。在测试期间,视频剪辑的顺序是随机的,因此对于每个主题是不同的。
共有20名观察者参与了主观实验,包括12名男性和8名女性,年龄在20至40岁之间。对于每个视频剪辑,要求受试者给出最能反映感知质量的整数分数。对于每个受试者,整个测试大约需要一个小时,分为两个阶段,中间休息7分钟,以尽量减少疲劳的影响。得分范围从0到100,其中0表示最差质量,100表示最佳质量。
四、分析与讨论
1)分析主观评分数据
在主观测试之后,基于[10]中的离群值去除方案去除了一个离群值数据,得到19个有效受试者。
每个视频剪辑的最终质量得分被计算为主观得分的平均值,即平均意见得分(MOS)。
考虑到MOS作为“基础事实”,可以通过计算各个主题评级与每个视频剪辑的MOS值之间的相关系数来评估个体主题的表现。Pearson线性相关系数(PLCC)和Spearman的秩次相关系数(SRCC)被用作评估标准[12]。两个标准都在0到1之间,其中较高的值表示更好的性能。每个受试者的表现如图2所示。所有个体受试者的平均表现也在图2的最右侧列中给出。可以观察到,受试者通常在很大程度上彼此一致。
要评估Psy-RD对不同视频内容的影响,我们绘制了Psy-RD对提高图3中每个视频质量的可能性,其中可能性计算为Psy-RD改善质量减去0.5的百分比。可以看出,尽管Psy-RD降低了大多数视频质量,特别是对于具有低空间和时间复杂度的视频,例如Baby,DaNaoTianGong和Skii,它倾向于改善包含复杂空间和时间活动的某些视频的质量,例如,Animation, China,LoL和Transformer。据我们所知,这一现象尚未在文献中明确报道。背后的原因尚不完全清楚,但值得深入研究。从主观测试结果来看,我们有以下观察:
1)表1列出了使用Psy-RD OFF作为原点,通过不同强度和不同码率下Psy-RD所获得的平均MOS增益。可以看出MOS都是在下降。这意味着开启Psy-RD会损害视频的整体主观质量。 Psy-RD强度越大,负面影响越大。
2)Psy-RD倾向于增加视频的实际码率,如表2所示.Psy-RD强度越大,编码视频的码率越大。
3)Psy-RD的影响取决于内容。我们观察到Psy-RD经常提高复杂场景视频的质量,并且Psy-RD强度为0.6时的增益达到峰值。另一方面,大多数视频开启Psy-RD视频质量是下降的,特别是对于空间和时间复杂度较低的视频。总的来说,作为一种心理视觉增强工具,Psy-RD应该谨慎使用,因为调整Psy-RD参数不仅会增加比特率,还可能会引入对感知质量产生显着负面影响的烦人伪影。
五、VQA Models分析
我们测试了9个全参考和1个无参考VQA模型,包括PSNR,VSNR [13],WSNR [14],SSIM [15],MSSSIM [16],SSIMplus [17],VIF [18],STMAD [ 19],VQM [20]和BRISQUE [21]。采用四个标准性能评估,比较MOS和VQA模型。一些标准包含在视频质量专家组[12]的先前测试中。先前的研究[22]采用了其他标准。这些评价标准是:
1)PLCC经过主观和客观评分之间的非线性修正逻辑映射[22];
2)SRCC;
3)非线性映射后的平均绝对误差(MAE);
4)非线性映射后的均方根。在上述指标中,采用PLCC,MAE和RMS评估预测精度,采用SRCC评估预测单调性[12]。更好的客观VQA测量应具有更高的PLCC和SRCC,同时降低RMS和MAE值。
表3总结了评估结果。可以观察到,no reference方法不能对Psy-RD视频优化提供的充分预测。几个完全参考的IQA模型(SSIM,MSSSIM,SSIMplus,VIF和VQM)表现得相当好,几乎同样出色,尽管它们的计算成本差别很大,从SSIMplus,SSIM,MSSSIM,VIF到VQM,从最低到最高。从图4中的VQA算法的散点图也可以观察到这种情况。然而,主观评分和模型预测之间良好的整体相关性并不一定意味着客观模型可以很好地预测Psy-RD的确切影响。视频优化,需要进行更深入的调查。
为了确定是否可以使用客观的VQA模型来自动化决策,即在视频编码中是否应该打开Psy-RD,我们还进行了误报测试。具体来说,就是计算每个目标VQA模型在Psy-RD优化引起的质量变化方向上与MOS不一致的概率。表4总结了评估结果,这有点令人失望,因为VQA模型似乎无法对Psy-RD引起的质量变化方向提供足够的预测。即使具有最佳性能的模型具有平均值误报率高于0.3,这表明应该开发更准确的VQA模型来评估PsyRD优化的性能。
六、结论和未来的工作
我们首次尝试研究Psy-RD优化在视频编码中的感知效果。创建了Psy-RD优化视频数据库,然后进行主观实验和数据分析。我们的结果有些令人惊讶,这表明Psy-RD平均优化不仅会增加码率和计算资源,还会降低视频的主观质量。几个客观的VQA测量提供了合理的整体质量预测,但可能无法准确预测Psy-RD选项对单个视频的感知质量的影响。我们目前的研究虽然总体上是否定的,但并不一定能得出Psy-RD类型的优化对于感知视频编码毫无意义的结论,而是表明需要对客观视频质量评估和感知编码进行更深入的研究才能实现在实际应用中更好的体验。