最近学习了CVPR2021的一篇文章《真实世界图像增强的去偏主观质量评价》(Debiased Subjective Assessment of Real-World Image Enhancement)。
一、前言
图像质量评价(Image Quality Assessment,IQA)是图像处理中的基本技术之一,主要通过对图像进行特性分析研究,然后评估出图像优劣(图像失真程度)。图像质量评价在图像处理系统中,对于算法分析比较、系统性能评估等方面有着重要的作用。近年来,随着对数字图像领域的广泛研究,图像质量评价的研究也越来越受到研究者的关注,提出并完善了许多图像质量评价的指标和方法。
图像质量评价分为客观标准和主观标准。客观标准指PSNR、SSIM那些可以计算的指标,比较准确,但有时不能真实反映图像质量。主观标准就是找人观察,然后评分,再根据人的评分综合判定那幅图像最好。
【举例】有一低亮度图(左),用不同的方法增强出不同的结果(从左至右记为A、B、C、D)。肯定有人觉得A好,颜色比较鲜艳,也有人觉得B好,教堂的感觉比较真实等等。图像质量评价研究的是何如评价那种图的质量最好。
作者认为主观评价有下面三个问题:
1、选择的图像有局限性
2、算法对某种特定图像潜在过拟合
3、存在主观偏差
二、本文方法
本文提出一种图像增强的去偏主观质量评价方法:
1、首先选择数据集X,增强算法F个,两个距离指标D1、D2
2、用所有F增强所有X
3、对于每一对增强算法Fi和Fj,选择两种方法增强结果差异最大的K对图加入D
4、找人观察D中图像,得到计数矩阵C
5、计算排名μ
【1】数据集
(a)为数据集,假设现在要比较FFA-Net和Shao20两种增强算法谁更好,先把所有图像都用这两种方法增强一遍,再挑选增强结果中距离最大的K对作为待评价图像(b)。(c)显示了两种方法增强的结果。
【2】增强
这里都用原作者代码的缺省设置。
【3】挑选图像
数据集那么大,不可能都都找人去观察,所以要选出差别最大的一些图,也就是距离最大。啥叫距离最大呢,距离最大有两个标准,一是两张图像的特征差得尽量远,二是和已选中图像S差距尽量大。最终要找的是两者均衡下的距离最大的图像。
f1(x), f2(x):两种增强算法的增强结果
D1:某种图像感知差别的客观指标(本文用DISTS指标,一个结构和纹理相似性的综合指标
中的方法)
D2:图像x到S的某种语义距离(本文用VGG最后一个特征层的MSE)
【4】评分矩阵
将所有选出的图像找人观察,得到评分矩阵C。对于N种增强算法,C是一个N×N的矩阵,Cij表示认为第i种算法的增强结果优于第j种算法的人数。所有选择必须从A优于B或B优于A中二选一,没有中间选项。例如下图是我自己画的一个评分矩阵,有3种算法,12张图像,9人认为算法A好于算法B,3人认为算法B好于算法A,以此类推。
【5】计算排名
评分向量{μ1,μ2…μN}表示每种算法的最终得分,求解下列最优化问题:
φ为正态累积分布函数,根据Thurstone模型L为最大似然估计,设置限定条件:
求出评分向量。
三、实验
在单图像去雾、单图像超分辨率、低亮度图像增强三个领域验证效果。
每个领域的图像集都由10000张图像构成,选出近年来流行或先进的算法8种,每对算法挑选12对图像,找25个观察者(具有图像处理背景知识)进行观察。
以图像去雾为例,图像集来自真实雾天数据集RESIDE和网络,算法共8种:CAP [87],Berman16 [1], AOD-Net [32], Cho18 [5], GCANet [3],FFA-Net [48], Dhara20 [8], Shao20 [53]。作者选择的图像对为:
然后按照上述方法得到每种算法的评分:
根据得分,作者得出结论:Shao20的去雾方法最好(超分辨率和低亮度图像增强的实验同理,可以参考原文)。
然后作者又做了消融实验,包括改变距离指标D1和图像数量N,发现这种评价方法很稳定,得到的结果也很可靠。
四、思考
1、图像最终的接收和使用者是人,人的主观评价相当重要。
2、图像效果的比较不同于数值比较, A>B且B>C时不一定有A>C,所以多图一起比较有困难;如果用评分制,分数不好量化。
3、如果两张图效果差不多,结果可能接近随机。
4、本文一定程度解决了这两个问题,每次都是两两比较,而且比的还是差距最大的一些图,效果可能好一些;最后类似求一个多算法结果之间的“联合分布”,来确定最优的算法。
5、本文只列举了三个领域的应用,其实在没有“正确答案”的图像处理问题里通用。
以上是本人对这篇论文的一些看法,欢迎交流讨论。