如何选择和使用视频质量客观评价指标


“视频质量评定是个大坑”,正如北京大学信息工程学院教授王荣刚所说。尽管可以通过火眼金睛的“专家”来主观评价(一种观点认为主观评价要由于客观评价,毕竟视频给人看的),但对于Netflix、爱奇艺这样每日新增海量视频的平台而言,主观评价是行不通了。那么,如何选择视频质量客观评价指标就很关键了。本文来自streaming media首席分析师Jan Ozer,详细介绍了市面上主流的视频质量客观评价指标(工具),并给出了自己的建议,点击『阅读原文』访问原文。


LiveVideoStack对本文进行了摘译,感谢朱政和金山视频云团队对本文进行了技术审校。关于视频质量评价,本文抛了“砖”,如果你有相关实践或洞察,欢迎联系 contribute@livevideostack.com。


文 / Jan Ozer

译 / 王鸿蒙

技术审校 / 金山视频云团队


无论您是否知道,您观看的许多视频其实都是使用视频质量评价指标来优化的。哦,您不同意?那您最近看过Netflix吗?在过去两年多的时间里,Netflix的编码阶梯已经由公司的视频多方法评估融合(VMAF)的体系来驱动,然而在此之前使用的是峰值信噪比(PSNR)。您不是Netflix的客户?那么,YouTube呢? YouTube使用基于恒定码率因子(CRF)编码的神经网络,该编码本身也是由其内部的视频质量评价指标来驱动的。

 

简而言之,视频质量评价指标试图从观众的主观视角出发来预测特定视频的评分,并基于预测的准确性来衡量评价指标本身的好坏。当然,还有很多纯粹主义者坚持认为主观比较是衡量视频质量的唯一有效方法,确实,正确执行主观测试才是黄金标准。


但是,如果您考虑到每分钟都会有400小时的视频上传到YouTube,则可以理解该服务非常需要尽可能高效地对这些视频流进行编码,并且完全无法通过部署人员来实现这一点。即使是Netflix,2017年的新内容中的很小一部分——1000小时,也无法用人眼来为每个视频创建定制的编码阶梯。对于上述两家公司和其他大多数公司而言,使用客观的质量评价指标才是最主要的方式。


最重要的是,如果您负责本公司的编码工作,而没有使用视频质量客观评价指标来开展工作,那么您就落伍了。幸运的是,您开始阅读这篇文章了。在本文中,我将概述有哪些视频质量度量标准及其工作原理,向您介绍应用这些度量标准的最常用工具,并告诉您如何根据需要选择最佳度量标准和工具。

 

指标测量什么(如何测量)


您可能已经听说过PSNR、结构相似性指数(SSIM)等评价指标,甚至可能还听说过Netflix的VMAF。 要理解这些指标的不同之处,就要理解每种指标是如何产生的,以及各自的作用。

 

基于误差的评价指标


第一类评价指标是基于误差的。 他们将压缩图像与原始图像进行比较,并创建一个数学上代表两个图像之间差异的评分,也称为噪声或误差。PSNR比率就是一个很好的例子。 基于这种方法的评价指标很简单,而且容易计算,但是该评分通常与主观评分不相关,因为人眼和机器对误差的认识毕竟不同。

 

举例来说,我曾经测试过一个编码工具,其输出文件的PSNR得分令人沮丧。 我多次播放了压缩后的视频,但找不出原因。 然后,我将编码的图像与原始图像进行比较后发现,其实是一个轻微的颜色变化导致了较低的分数。在实时回放时,由于没有与原始视频的比较,没有观众会注意到这种转变,所以在这种情况下,与主观检验相比,PSNR其实是一个不够好的预测。

 

那么为什么包括Netflix和Mozilla(与AV1编解码器有关)在内的公司还要继续发布PSNR结果呢? 首先,因为它是最著名的评价指标,所以其得分很容易被大家所理解。 其次,尽管PSNR是个旧的评价指标,它仍然会在很多情况下提供非常有用的数据参考,我将在下面讨论其中的部分细节。

 

基于感知的模型

 

在更高的层次上,像SSIM这样的基于感知的模型,试图引入人类如何视觉感知错误或者说“人类视觉系统模型”,以更准确地预测人类如何评价视频。例如,根据维基百科&#x

  • 1
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值