No-Reference Image Quality Assessment via Transformers, Relative Ranking,and Self-Consistency
Golestaneh S A, Dadsetan S, Kitani K M. No-reference image quality assessment via transformers, relative ranking, and self-consistency[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2022: 1220-1230.
(本篇博客中出现的图片大部分来源于原论文)
文章结构
- Abstract
- Introduction
- Related Work
- Deep learning for NR-IQA
- Transformers for NR-IQA
- Learning to rank for NR-IQA
- Proposed Method
- Feature Extraction
- Attention-Based Feature Computation
- Feature Fusion and Quality Prediction
- Relative Ranking
- Self-Consistency
- Losses
- Experiments
- Datasets and Evaluation Metrics
- Implementation Details
- Performance Evaluation
- Ablation Study
- Failure Cases and Discussion
- Conclusion
Abstract
- 无参考质量评估就是需要来给图像打分,使这个分数跟主观质量打分尽量契合
- 本篇提出模型:
- 混合模型: CNNs + 基于自注意力的Transformers
- 目的:同时提取图像局部以及非局部的特征
- 工作(这边将在之后的章节做详细介绍):
- 问题--------进一步改善主观与客观得分之间的单调相关性; 解决方法-------利用每一个批量中的图像的相对距离信息,得到它们之间的相对排序信息,以此辅助模型打分能力。
- 问题--------等变变换会使得无参考质量评估模型性能下降;解决方法-------“自一致性”方法作为自监督策略,从而改善模型鲁棒性。(具体来说:对于每张图片和他的等变图片的模型输出,采用我们提出的“自一致“方法,从而利用模型丰富的自监督信息,减少模型的不确定性)。
一、Introduction
第一段: 介绍质量评估课题的研究背景,研究意义、价值。
第二段: 图像客观质量评价(IQA)是在做什么;
IQA的分类;
无参考质量评价(NR-IQA)是在做什么。
第三段: NR-IQA的分类:1. 基于失真鉴别的方法;2. 通用方法(general-based NR-IQA)
前者的缺点(现实场景应用有限),后者的特性(高度依赖于特征提取)
第四段: 一直以来general-based NR-IQA工作的重点;
数据集方面,还没有解决即依然存在问题:
1. 合成失真数据集的失真类型有限
2 .真实世界失真类型更复杂,合成失真数据集无法全部表征;
而且人的视觉系统(HVS)是如何区分图片质量和图片真实性,目前还未可知(失真会影响图片美学,但也可以促进美学,比如故意添加模糊来实现一定的效果,这也从另一方面说明了现实生活中的真实畸变更为复杂,没有可供参考的图像。)
第五段: 现有的基于深度学习算法工作——依赖于MOS,将评估任务作为分类和回归任务。
我们的改进——考虑每个batch内,图像的相对距离信息:学习得到最高、最低质量分数的图像之间的相关等级。
第六段: 模型对图片的等变变换较为敏感,这与人类主观质量评价体系相矛盾,于是作者团队还使用了自一致性方法来做自监督,避免这种变换前后不一致的预测。
列举本篇paper主要贡献:
1. 端到端NR-IQA模型:通过CNNs+transformer融合图像局部和全局信息
2. 提出相关等级损失函数:我们提出了一种基于人类主观评分的自适应边缘的三元组损 失——质量评分最高(最低)的图像与质量评分第二高(第二低)的图像之间的距离更接 近,与评分最低(最高)的图像之间的距离尽量远。
3. 自一致性,解决模型对于等变变换之后的输入预测结果不一致的问题。
4. 7个基准数据集上部署实验,证明我们提出方法的有效性。
二、Related Work
第一部分: 深度学习以前的方法:
以上方法应对真实世界的失真表现任然平平
第二部分: 已有的基于深度学习的NR-IQA:
1. 在训练过程中同时做质量预测和失真鉴别,以多任务方式解决了NR-IQA问题 [38]
2. 基于生成对抗网路的模型 [36]
3. 基于CNN [37]
4. 基于元学习 [43]
5. 多尺度特征 [42]
第三部分: 基于Transformer的NR-IQA:
首先提出基于CNN的方法的局限性,本篇受NLP启发,我们利用基于transformer的网络来建模长距离依赖关系,结合CNN从多尺度中提取特征,并对提取的特征之间的非局部依赖性建模。共同做质量预测。
简要概述了Transformer从自然语言领域到CV领域,再进一步到IQA领域的过程。本篇工作的首创性,以及在特征提取上的改进:融合CNN多层输出,即多尺度特征到Transformer。
第四部分: NR-IQA等级信息的学习:
1. 利用内容和失真类型相同,但失真程度不同的等级信息来做质量预测 [39]
2. 利用MOSs间的连续信息以及差异信息 [63]
基于等级信息学习的方法使用固定的边际(根据经验选择)来最小化他们的损失函数,以上算法在真实失真数据集上往往表现不太行。我们的方法也是根据MOS信息来得到相对等级信息,不同点在于我们提出了一个自适应边际的三元损失,不需要一个固定边际。
第五部分: 泛化性能低一直是IQA工作尚未解决的问题
我们的实验:1. 交叉数据集评估;
2. 数据增强已经成功提高了CNNs的泛化性能,因此我们的工作就是如 之前提到的,解决模型对于数据增强中的等变变换的敏感度问题。
三、Proposed Method
模型名称: TReS
3.1:特征提取
多尺度特征融合的过程
输入图像 :
(m、n:图像高宽)
模型评估得到的质量分数: q
CNN:
CNN的第i个模块输出特征:
( i
{1,2,3,4} )
每一个模块的输出特征维度都不同,所以要先将它们进行一个标准化、池化、dropout层:
- Euclidean norm :
pooling layer :
![]()
: 模糊块 —— 通过近似应用 the Nyquist criterion 的 Hamming window 实现
- 标准化等操作之后的输出结果:
然后将得到的
做concat :
3.2: 基于注意力的特征计算
这一块就是对Transformer的运行机制的详细介绍,熟悉Transformer的人看这块儿会很轻松,博主在这里也直接略掉。后面如有需要,可以单出一期关于Transformer的详解篇。
3.3: 特征融合和质量预测
fusion layers : FC
the regression loss :
:第 i 个图像的质量预测分数
:其相对应的 ground truth
B: batch size
3.4: 相关等级
图像之间的等级信息和关联信息
考虑一个batch中的所有图片的相关等级,其计算复杂度太高,因此本篇只考虑极端的例子。
(预测最高分)
(预测次高分)
(预测次低分)
(预测最低分)
(MOS最高) >
(MOS次高分) >
(MOS次低分) >
(MOS最低分)
目标:
![]()
用三元损失来处理这个不等式
然后最小化:
同样的:
margin的选择可以根据每个数据集按照经验选择,但是这样显然不够灵活。
通过公式可以推倒出:
因此可以考虑给这两个margin设置上界值:
relative ranking loss :
3.5: 自一致
解决训练过程中,输入图像和它的等变变换通过模型之后出现的得分不一致的现象。
通过图片与其等变变换之间的自监督信号来应用自一致方法。
输入:
CNN输出对数:
Transformer输出对数:
目的 :
self-consistency loss :
3.6: 损失函数
The total loss :
本次实验分别将
的值设置为 : 0.5,0.005, 1
四、Experiments
4.1: 数据集和评估指标
使用到的数据集:
评价指标:
SROCC PLCC
4.2: 实现细节(略)
4.3: 性能评估
总的性能表:
交叉数据集性能:
其他:
本篇还通过最近邻检索,检索跟一张图像最接近的3张图像 。
结果表明,虽然我们没有特意对内容以及失真类型尽心单独的建模,但最近的邻居样本在感知质量方面具有相似的内容或结构,并且彼此具有相近的主观得分,这代表了我们的模型在特征表示方面的有效性。
空间质量图:
4.4: 消融实验
总的消融性能表:
backbone的选取:
4.5: 失败案例和讨论
我们的实验存在的不能准确预测的部分:
作者给出的原因:iQA任务既被当作回归任务,又被当作分类任务。
而且现有的数据集大部分对一张图像都只提供了一个主观质量分数。
未来工作展望:
1. 作者认为现有的IQA数据集缺少对参与主观质量评分的人选择质量分数背后原因的解释;这可以帮助未来的模型建模HVS和分配质量分数背后的推理,以更好的方式进行更精确的感知质量评估。
2. 另一方面,从主观得分的角度来看,受试者可能对模糊的伪影和灰度图像不太宽容,所以这些伪影容易吸引他们过多的注意力。然而,我们的模型区分开了不同的感知线索(颜色、清晰度、模糊度),这可以解释我们的模型对主观质量评分相近的图片打分有差异的原因。
5. 总结
本篇提出的创新点都基于对存在问题的解决,且实验丰富,分析多样性高,写作逻辑清晰,膜拜。
论文链接如下: