论文笔记--deepIQA: Deep Neural Networks for No-Reference and Full-Reference Image Quality Assessment
原文:
X. Liu, J. v. d. Weijer and A. D. Bagdanov, ”RankIQA: Learning from Rankings for No-Reference Image Quality Assessment,” 2017 IEEE International Conference on Computer Vision (ICCV), Venice, pp. 1040-1049, 2017.
原文代码:
chainer框架
pytorch框架
论文主要框架
Introduction
与很多数据驱动的IQA方法不同,被输入网络中的patch没有归一化。
有趣的是,从全参考模型开始,来自参考图像的用于精确质量预测的信息量的系统性缩减在我们的方法下得以促进。这也有利于缩小FR-IQA和NR-IQA的距离。
相关成果
A. FR-IQA
B.NR-IQA
典型的方法是对自然图像统计建模,然后从这个模型中回归参数偏差,获得图形质量分数。
DIIVINE[18]:第一步识别失真类型,第二步利用一个特定失真回归体制来估计感知质量
BIECON[28]:提出了一个数据扩张和处理基于CNN的NR-IQA的有趣方法:第一步,一些归一化的图像批采用一个由2层卷积层,2层池化层和5层全连接层组成的CNN,基于这些图像批进行本地质量的评估。
其中的CNN网络
池化策略,提高相似度指标的评价能力
图像质量评估在深度神经网络,端到端训练上的应用的初步成果已经展示在论文[29][30]中,并在这次论文中得以扩展和评估。
[29] S. Bosse, D. Maniry, T. Wiegand, and W. Samek, “A deep neural network for image quality assessment,” in Proc. IEEE Int. Conf. Image Process. (ICIP), Sep. 2016, pp. 3773–3777.
[30] S. Bosse, D. Maniry, K.-R. Müller, T. Wiegand, and W. Samek, “Neural network-based full-reference image quality assessment,” in Proc. Picture Coding Symp. (PCS), 2016, pp. 1–5.
III 基于深度神经网络的IQA方法
- 主要贡献
论文中的模型包括10个卷积层,5个池化层用于特征提取,以及2个全连接层用于回归,属于端到端的训练网络(纯数据驱动的方法)
经过轻微调整可以用于FR-IQA和NR-IQA
- 特征提取
论文在特征提取过程中,使用了一系列的conv3-32,conv3-32, maxpool, conv3-64, conv3-64, maxpool, conv3-128,conv3-128, maxpool, conv3-256, conv3-256, maxpool, conv3-512, conv3-512, maxpool layers后,得到失真图像的特征向量。
- pooling空间池化(从局部质量评估到全局质量评估)
基于简单的平均加权:对每个patch的质量回归,最后得到整幅图像的视觉质量:
由于图片的各个图像块引起观察者注意力的程度不同,简单的平均加权并没有充分考虑不同图像块的感知质量的相对影响,所以根据具体的图像块给予不同的权值能够更好地评估图片:
A. 基于深度神经网络的FR-IQA方法
E.训练
batchwise optimization:数据批对优化
epoch的定义:来自训练集的每一个样本均被使用过一次的一个周期
在每一epoch,训练集被划分为小批数据集mini-batch。 每个mini-batch包括四个图像,每个图像都被随机采样为32个图像块。所以mini-batch总共有128个图像块。
反向传播误差为:平均损失/mini-batch里面的图像。
为了训练FR-IQA网络,对应的参考图像块在mini-batch中,每一epoch中的图像块都是随机采样的,这样能够保证尽可能多不同的图像块被用来训练。
数据批对优化的学习率是由每一个参数控制的,这些参数用ADAM方法基于梯度方差进行调整。ADAM方法的参数参考了论文[40],分别为:
在验证中,平均损失和所有图像之比是在评估模型中计算的,比如dropout被缩放替换
为了避免验证损失中的 噪声,每一个验证图像的32个随机图像块只在训练的最开始采样一次。
最后用于评估的模型是有最好验证损失的那一个,这一规则化能够防止过拟合。
要注意的是,两个回归评估质量的分支并不共享权重,他们各自网络的权重更新是分别基于不同参数对应的梯度计算的。
IV 实验及结果
A.数据集
实验用到的数据集有LIVE,TID2013,CSIQ图像质量数据集。NR-IQA也用到LIVE In the Wild Image Quality Challenge Database,简称CLIVE
B.实验
MOS:平均主观意见分
DMOS差分主观意见分
与以往的文献不同,我们利用了整个TID2013数据库,没有忽视任意一种失真类型。
为了获得不同数据集间的误差和梯度,TID2013和CLIVE的MOS值,CSIQ的DMOS值都已经线性映射到与LIVE的DMOS值同一范围。
在这个映射当中,越高的值yi,本地失真程度越高;
对于评估,预测精确度由PLCC来衡量,预测单调性由SORCC来测量;对于这两个相关系数,值越接近1表示特定质量测量越高的性能。
C.性能评估
D.本地权重(蓝色代表low value,黄色代表high value)【本地权重对评估性能的影响】
1.在DIQaM-FR/NR中,背景被分配的失真值比物体的高。
在FR中,本地权重提供了一些粗略的图像分割信息,因为更高的权重刚好是包含了一个物体的区域。
但是在NR情况下失败,这就解释了为什么在NR中WaDIQaM的性能比DIQaM差。
对于LBDDI这种失真类型,WaDIQaM均显优势,因为都能给出好的权重,如下图。不像上面所说的WaDIQaM-NR比DIQaM-NR差。因为在这种失真类型下,图像的结构已经不重要了。
前面给出的猜想是,WaDIQaM-NR在数据集CLIVE上的性能比DIQaM高,但其性能在LIVE或TID2013上却降低的原因是CLIVE有更大量的空间差异。
如下两张来自CLIVE的图
一张严重曝光不足,一张在黑背景下可以很好区别出背景和物体,如下图的权重:(也就是说CLIVE里面的图像得出的结果有好有坏,差异性大,综合性能就会好一些)
综合上述三组数据,可以得出结论: 加权平均图像块聚合对质量映射也有影响。因此,综合的优化办法引入一个yi和ai的结合,其中权重ai要适应特定的失真类型。
E.交叉数据库评估
(1)FR-IQA
综合来说,WaDIQaM表现出更好的泛化能力。而在TID2013上训练的模型泛化能力更好,说明更大的训练集可能有更好的泛化能力。
(2)NR-IQA(拓展了论文【26】中的实验)
WaDIQaM比DIQaM更能比较好的适应没见过(训练的时候没有的)的失真。
结论:深度神经网络的泛化能力取决于训练集的大小以及多样性
F. Convergence Evaluation收敛性评估
验证Np的对结果的影响,并证明Np =32 patchs的合理性
(1)FR-IQA
如下图,WaDIQaM在Np =32时就达到饱和,DIQaM在Np =16时达到饱和
(2)NR-IQA
G.特征融合
结论:当模型能够学习两个特征向量的关系时,显式地提供关系可以提高性能
显式地提供原始特征向量并不一定能提供有用信息
H.网络深度
结论:网络深度越大,性能越好
I.Bridging From FR to NR IQA
主成分分析(Principal Component Analysis,PCA)
V.讨论与总结
论文说明了,局部权重不仅取决于参考图像的结构组织,而且取决于失真类型和失真的空间分布。这就是IQA的基本问题所在……