引用:
Mohammadi P , Ebrahimi-Moghadam A , Shirani S . Subjective and Objective Quality Assessment of Image: A Survey[J]. Majlesi Journal of Electrical Engineering, 2014, 9(1).
摘要
随着对基于图像的应用的需求的增加,对图像质量进行有效且可靠的评估变得越来越重要。图像质量评估(IQA)的目标是自动评估与人类质量判断一致的图像质量,在过去几年中,已经提出了许多IQA方法来实现这一目标。本文介绍了对传统图像,以及新出现的图像,包括高动态范围(HDR)和三维图像进行评估的方法的调查结果,并提供了主观和客观IQA及其分类的全面解释。回顾了六种广泛使用的主观质量数据集和度量指标,重点研究了全参考图像质量评估(FR-IQA)方法以及9种常用的质量度量,并评估了它们在四个主观质量数据集上的性能和计算时间。此外,还提供了3D IQA的简要介绍,并回顾了与该研究领域相关的问题。
关键词:图像质量评估,高动态范围图片,3D图片质量评估,全参考质量评估,半参考质量评估,无参考质量评估
1. 介绍
随着信息呈现方式的多样性发展,数字图像正迅速进入我们的日常生活。这些图像在最终被使用之前通常需要经过多个处理阶段,在不同处理阶段中,图像会因为种种原因经受不同类型的失真,从而降低了质量。为了控制和提高图像质量,图像通信、管理、采集和处理系统必须评估每个阶段的图像质量。
IQA方法可以分为主观和客观两大类型。评估图像质量最准确和可靠的方法是通过主观评估,然而主观评估是昂贵且耗时的,这使得它们在现实世界的应用中不实用。客观IQA的目标是设计能够准确且自动地预测图像质量的数学模型,模拟普通人类观察者的质量预测。
2. 主观图像质量评估
评估图像质量最可靠的方法是通过主观测试,因为人类观察者是大多数多媒体应用的最终用户。在以下小节中,我们将简要介绍一些标准化的主观IQA方法。
2.1 单刺激分类评估
在这种方法中,测试图像在屏幕上显示一段时间后消失,为了避免量化伪像,观察者需要依据记忆对图像质量进行评级:很好、好、一般、差、很差。
2.2 双刺激分类评级
该方法类似于单刺激方法,不同的是,该方法中测试图像和参考图像需要同时展现给观察者。
2.3 通过成对比较强制选择排序
在该方法中,观察者必须对同一场景的两个图像进行质量排序。这种方法的缺点是需要许多试验来比较每对条件。
2.4成对相似性判断
在本方法中,不仅要求观察者选择具有更高质量的图像,而且还要求在连续尺度上指示它们之间的差异水平。
2.5平均差异得分(DMOS)
现代IQA指标使用的是图像之间的质量差异,DMOS定义为参考图像和测试图像的原始质量得分之间的差异。具体计算公式可以阅读原文。
2.6 Z分数(Z-score)
为了容易地比较观察者对图像质量的看法,采用线性变换使得所有观察者的均值和方差相等,这种变换的结果称为Z分数,具体计算公式可以阅读原文。
主观质量评估可以提供准确、可靠质量度量结果。但是,这些方法存在很多限制:
- 耗时、昂贵
- 无法集成到图像压缩和传输系统等实时应用程序中
- 结果在很大程度上取决于受试者的身体状况、情绪状态和外部条件。
因此有必要设计一种以一致的方式用主观评价来预测视觉信号的感知质量的数学模型。
3. 客观图像质量评估
客观IQA的目标是设计能够准确且自动预测图像质量的数学模型。理想的客观IQA方法应该能够模拟普通人类观察者的质量预测。
基于参考图像的可用性,客观IQA方法可以分为三类。第一类是全参考图像质量评估(FR-IQA),第二类是半参考图像质量评估(RR-IQA),第三类是无参考图像质量评估(NR-IQA)。下面将以该分类为基础介绍不同客观IQA的特点。
3.1无参考图像质量评估(NR-IQA)
在许多现实世界的应用中参考图像不可用,并且质量评估仅基于测试图像。与RR-IQA和FR-IQA方法相比,NR-IQA是一项更加困难的任务。
3.2半参考图像质量评估(RR-IQA)
在RR-IQA中,参考图像不是完全可访问的。相反,从参考图像中提取许多特征。质量评估方法采用这些特征作为评估测试图像质量的辅助信息。
图1显示了RR-IQA系统的框架。从参考图像中提取某些特征并通过辅助信道发送它们,通过比对从参考图像和测试图像两者中提取的特征获得测试图像的整体质量的单个分数。 选择的特征应满足以下标准:
- 能够提供参考图像的有效摘要。
- 对各种失真类型敏感。
- 具有良好的感知相关性。
在设计理念的基础上,RR-IQA方法可以简单地分为三类:基于图像源模型的方法、基于捕获图像失真的方法、基于人类视觉系统模型的方法。
3.3全参考图像质量评估(FR-IQA)
在本节中,我们将全面描述六种FR-IQA方法:均方误差(MSE)、结构相似性指数(SSIM)、多尺度结构相似性指数(MS-SSIM)、视觉信息保真度(VIF)、最明显的失真(MAD)和特征相似性指数(FSIM)。值得注意的是,所有这六个质量评估指标都是针对灰度图像设计的。
3.3.1。均方误差(MSE)
MSE表示失真的功率,即参考图像和测试图像之间的差异,计算公式如下:
MSE通常转换为峰值信噪比(PSNR)。PSNR是信号的最大可能功率与失真功率之比,它通过以下公式计算(其中D表示像素强度的动态范围):
MSE具有如下特性:
- 简单,计算成本低廉
- 物理上具有清晰的含义,即它是一种定义误差信号能量的自然方式
- 满足凸性,对称性和可区分性
- 被认为是一种惯例,即它广泛用于各种信号处理应用中的优化和评估。
3.3.2结构相似性指数(SSIM)
SSIM指数假设HVS非常适合于从场景中提取结构信息,因此该算法试图对图像的结构信息进行建模。该算法基于以下假设:自然图像的像素表现出强依赖性,并且这些依赖性携带关于场景结构的有用信息,因此测量结构信息变化的方法可以提供感知图像失真的良好近似。SSIM算法将图像劣化定义为结构信息中的感知变化。在[1]中,声明场景中物体的结构与局部亮度和对比度无关。因此要提取结构信息,首先应该分开照明的效果。在该算法中,图像中的结构信息被定义为表示该图像中的对象的结构的那些特征,与局部亮度和对比度无关。
3.3.3多尺度结构相似性指数(MS-SSIM)
前面描述的SSIM指数被认为是单尺度方法,当以适当的比例应用时,它实现了其最佳性能。此外,选择正确的比例取决于观看条件,SSIM指数缺乏适应不同条件的能力。与SSIM等单尺度方法相比,多尺度方法(如MS-SSIM)的优势在于不同分辨率和观察条件下的图像细节被合并到质量评估算法中。 MS-SSIM算法的框图如图2所示,在将参考和测试图像作为输入之后,该算法以迭代方式执行低通滤波和下采样(以2倍)。
3.3.4视觉信息保真度(VIF)
VIF算法使用高斯尺度混合(GSM)对小波域中的自然图像进行建模。将高质量捕获设备从自然环境中获取的图像和视频认为是自然场景。VIF算法由三个部分组成:源模型,失真模型和HVS模型。对模型感兴趣的读者可以阅读原文。
3.3.5。 最明显的失真(MAD)
MAD算法假设HVS在判断图像质量时采用不同的策略。当HVS试图观察包含接近阈值的失真的图像时,它通过移过图像来寻找失真,这种方法称为基于检测的策略。当HVS试图观察包含明显可见失真的图像时,它通过移过失真寻找图像的主题,这种方法称为基于外观的策略。为了估计基于检测的策略中的失真,使用局部亮度和对比度掩蔽。为了估计基于外观的策略中的失真,正在使用空间频率分量的局部统计的变化。
3.3.6。 特征相似性指数(FSIM)
FSIM指数基于HVS理解图像的前提,主要是由于其低级特性,例如边缘和零交叉。为了评估图像的质量,FSIM算法使用两种功能。生理学和心理物理学实验已经证明,在具有高相位一致性(PC)的点,HVS可以提取高信息量的特征。因此,PC被用作FSIM算法的主要特征。然而,PC是对比度不变的,我们对图像质量的感知也受到该图像的局部对比度的影响。作为这种依赖性的结果,图像梯度幅度(GM)被用作FSIM算法中的次要特征。 计算FSIM测量包括两个阶段:计算图像的PC和GM,以及计算参考图像和测试图像之间的相似性度量。
4. 彩色图像的质量评估
迄今为止描述的客观FR-IQA方法专门用于灰度图像,即不利用图像的颜色信息。颜色信息简化了场景中对象的识别和提取,因此它在评估图像质量时会影响人类观察者的判断。在处理数字图像的许多领域中,始终需要对于其参考版本预测彩色图像的质量的客观方法。通常,灰度图像的客观IQA度量原则上可以扩展为包含彩色图像,其方法是将这些度量单独应用于三个RGB颜色通道中的每一个,然后将每个通道的质量得分组合在一起来实现。然而因为RGB颜色空间并不代表HVS所感知的颜色,这种方法与人类感知无关。
在[2]中提出了第一种彩色图像质量测量。在这项工作中,提出了一种简单的人类色觉模型,它定量地描述了不同的感知参数,例如亮度和饱和度。感知空间被认为是具有空间滤波特性的向量空间,并引入了向量空间的范数,能够测量距离并定义与感知评估良好相关的失真度量。
5. 高动态范围(HDR)图像的质量评估
近年来,人们对高动态范围(HDR)图像越来越感兴趣。由于所描述的方法假设参考图像和测试图像的动态范围相似,迄今为止描述的FR-IQA方法不能用于评估HDR图像。在下面的小节中,我们将描述两种用于评估具有不同动态范围的图像质量的FR-IQA方法。
5.1动态范围无关质量测量(DRIM)
该度量的输出是失真图,表示可见特征的丢失,不可见特征的放大以及对比极性的反转。 DRIM算法对三种结构变化很敏感:可见对比度的损失、不可见对比度的放大、逆转可见对比度。
DRIM算法的框图如图3所示。该度量的输入是对应于参考图像和测试图像的亮度图。首先,预测检测阈值并生成感知归一化响应图。为了预测检测阈值,作者采用了[3]中的检测模型,该检测模型是专门为HDR图像设计的,考虑了由于局部适应,光接收器的非线性响应和眼睛光学中的光散射引起的空间灵敏度变化。为了确保预测的准确性,DRIM算法使用[4]中的测量来校准其检测模型。对于光学传递函数(OTF)和CSF,分别使用[5]和[6]中的模型。其次,感知归一化的响应被分解成不同方向和尺度的几个频带。为此,采用如[6]中提出的皮层变换,即带通和取向选择滤波器的集合。第三,对于每个频带分别预测三种失真类型。第四,因为前面的计算拥有非线性算子,概率图可能包含虚假失真。为了防止这个问题,使用其相应的皮质过滤器再次过滤每个概率图。最后采用类似于[6]的上下文失真映射方法可视化三种失真类型中的每一种。
5.2色调图像质量指数(TMQI)
TMQI指数计算包括两个阶段:结构保真度测量和统计自然度测量。由于TMO压缩HDR图像的动态范围,因此会导致信息丢失。此外,在人类观察者看到的LDR图像中可能看不到这种信息丢失。因此,结构保真度是色调映射图像质量评估的重要部分。
仅结构保真度不足以评估图像的整体质量。 高质量LDR图像的另一个重要特征是它应该看起来很自然,TMQI算法使用亮度和对比度作为其统计自然模型。
6. 图像质量评估中的主观数据集和性能度量
6.1主观数据集
为了评估新提出的IQA方法的性能,已经引入了许多主观质量数据集。本文主要介绍六种最广泛使用的主观质量数据集:Cornell-A57数据集,IVC数据集,TID2008数据集,LIVE数据集,Toyoma-MICT数据集和分类图像质量(CSIQ)数据集。
6.2 性能度量
为了比较新提出的IQA方法与现有方法的性能,在这里,我们描述了IQA中六种常用的性能指标:
- PLCC:预测MOS(DMOS)和主观MOS(DMOS)之间的线性相关系数。
- SRCC:预测MOS(DMOS)和主观MOS(DMOS)之间的相关系数。
- KRCC:肯德尔的秩相关系数是非参数秩相关度量。
- OR:异常值比率定义为在主观分数的标准偏差的正负2倍的区间之外的预测数量的百分比。
- RMSE:根均方误差
- MAE:平均绝对误差
一个好的IQA方法应该具有较高的PLCC,KRCC,SRCC指标和较低的RMSE,MAE和OR指标。
7. 三维图像的质量评估
与2D对应物相比,3D IQA面临更多新挑战,包括深度感知,虚拟视图合成和非对称立体声压缩。一些三维内容质量描述符量化了三维表示的整体观看体验:
- 深度质量:需要检查三维数据的深度特征,以验证内容的适用性
- 自然度:使观众能够轻松地将左右视图融合成具有平滑深度表示的自然三维图像
- 存在:自然的3D场景增强了观众的存在感
- 增值:在二维中显示相同内容的三维内容显示的好处
- 不适:由3D观看内容的生理、心理影响引起的整体主观感受
- DMOS:总体三维QoE
由于不可能获得对参考的测试并且在感知它们时测试3D图像,2D IQA方法的分类可用于3D图像,但是并不完全适用。因此,3D IQA的问题是双盲的。
基于所使用的信息,3D IQA方法可以分为两类:仅基于颜色信息的方法、基于颜色和视差信息的方法。
7.1基于颜色信息的方法
此类别中的方法仅基于颜色信息。计算SIFT匹配特征点的质量分数,采用多通道模型来估计3D图像质量利用提取的边缘信息构建用于三维图像的RR-IQA方法。
7.2基于颜色和视差信息的方法
此类别中的方法利用颜色和视差信息来评估三维数据的整体质量。可以是基于特征值/特征向量分析的三维图像RR-IQA方法。
8. 结论
在本文中,对主观和客观IQA进行了概述,简要介绍了四种最常用的主观IQA方法。此外还描述了客观IQA的三个主要类别,3D、彩色、HDR图像质量评估。本研究的中心主题是FR-IQA方法,我们描述了这一类的9种方法,并评估了这些方法的预测性能和计算时间。
参考文献
1. Z. Wang, A. C. Bovik, and E. P. Simoncelli, "Image quality assessment: from error visibility to structural similarity," IEEE Trans. Image Processing, vol. 13, pp. 600-612, April 2004.
2. O. D. Faugeras, "Digital color image processing within the framework of a human visual model," IEEE Trans. Acoust. Speech Signal Processing, vol. 27, pp. 380-393, Aug. 1979.
3. R. Mantiuk, S. J. Daly, K. Myszkowski, and H-P. Siedel, "Predicting visible differences in high dynamic range images: model and its calibration," Proc. SPIE, vol. 5666, pp. 204- 214, March 2005.
4. A. B. Watson, "Visual detection of spatial contrast patterns: Evaluation of five simple models," Opt. Express, vol. 6, pp. 12-33, 2000.
5. R. J. Deeley, N. Drasdo, and W. N. Charman, "A simple parametric model of the human ocular modulation transfer function," Ophthalmic and Physiol. Opt., vol. 11, pp. 91-93, 1991.
6. S. J. Daly, "Visible differences predictor: an algorithm for the assessment of image fidelity," Proc. SPIE, vol. 1666, Aug 1992.
致谢
本文由南京大学软件学院2016级本科生顾琦琪翻译转述。