图像质量评估——论文精读系列

最新推荐文章于 2025-02-23 08:19:53 发布

算法打工鹿

最新推荐文章于 2025-02-23 08:19:53 发布

阅读量2.3k

点赞数 8

分类专栏：论文阅读系列文章标签： python 计算机视觉图像处理 cnn 深度学习

本文链接：https://blog.csdn.net/qq_42351942/article/details/125003138

版权

论文阅读系列专栏收录该内容

8 篇文章

订阅专栏

No-Reference Image Quality Assessment via Transformers, Relative Ranking,and Self-Consistency

Golestaneh S A, Dadsetan S, Kitani K M. No-reference image quality assessment via transformers, relative ranking, and self-consistency[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2022: 1220-1230.

（本篇博客中出现的图片大部分来源于原论文）

文章结构

Abstract
Introduction
Related Work
- Deep learning for NR-IQA
- Transformers for NR-IQA
- Learning to rank for NR-IQA
Proposed Method
- Feature Extraction
- Attention-Based Feature Computation
- Feature Fusion and Quality Prediction
- Relative Ranking
- Self-Consistency
- Losses
Experiments
- Datasets and Evaluation Metrics
- Implementation Details
- Performance Evaluation
- Ablation Study
- Failure Cases and Discussion
Conclusion

Abstract

无参考质量评估就是需要来给图像打分，使这个分数跟主观质量打分尽量契合
本篇提出模型：
1. 混合模型： CNNs + 基于自注意力的Transformers
2. 目的：同时提取图像局部以及非局部的特征
3. 工作（这边将在之后的章节做详细介绍）：
  1. 问题--------进一步改善主观与客观得分之间的单调相关性; 解决方法-------利用每一个批量中的图像的相对距离信息，得到它们之间的相对排序信息，以此辅助模型打分能力。
  2. 问题--------等变变换会使得无参考质量评估模型性能下降；解决方法-------“自一致性”方法作为自监督策略，从而改善模型鲁棒性。（具体来说：对于每张图片和他的等变图片的模型输出，采用我们提出的“自一致“方法，从而利用模型丰富的自监督信息，减少模型的不确定性）。

一、Introduction

第一段： 介绍质量评估课题的研究背景，研究意义、价值。

第二段： 图像客观质量评价（IQA）是在做什么；

IQA的分类；

无参考质量评价（NR-IQA）是在做什么。

第三段： NR-IQA的分类：1. 基于失真鉴别的方法；2. 通用方法（general-based NR-IQA）

前者的缺点（现实场景应用有限），后者的特性（高度依赖于特征提取）

第四段： 一直以来general-based NR-IQA工作的重点；

数据集方面，还没有解决即依然存在问题：

1. 合成失真数据集的失真类型有限

2 .真实世界失真类型更复杂，合成失真数据集无法全部表征；

而且人的视觉系统（HVS）是如何区分图片质量和图片真实性，目前还未可知（失真会影响图片美学，但也可以促进美学，比如故意添加模糊来实现一定的效果，这也从另一方面说明了现实生活中的真实畸变更为复杂，没有可供参考的图像。）

第五段： 现有的基于深度学习算法工作——依赖于MOS，将评估任务作为分类和回归任务。

我们的改进——考虑每个batch内，图像的相对距离信息：学习得到最高、最低质量分数的图像之间的相关等级。

第六段： 模型对图片的等变变换较为敏感，这与人类主观质量评价体系相矛盾，于是作者团队还使用了自一致性方法来做自监督，避免这种变换前后不一致的预测。

列举本篇paper主要贡献：

1. 端到端NR-IQA模型：通过CNNs+transformer融合图像局部和全局信息

2. 提出相关等级损失函数：我们提出了一种基于人类主观评分的自适应边缘的三元组损失——质量评分最高(最低)的图像与质量评分第二高(第二低)的图像之间的距离更接近，与评分最低（最高）的图像之间的距离尽量远。

3. 自一致性，解决模型对于等变变换之后的输入预测结果不一致的问题。

4. 7个基准数据集上部署实验，证明我们提出方法的有效性。

二、Related Work

第一部分： 深度学习以前的方法：

以上方法应对真实世界的失真表现任然平平

第二部分： 已有的基于深度学习的NR-IQA：

1. 在训练过程中同时做质量预测和失真鉴别，以多任务方式解决了NR-IQA问题 [38]

2. 基于生成对抗网路的模型 [36]

3. 基于CNN [37]

4. 基于元学习 [43]

5. 多尺度特征 [42]

第三部分： 基于Transformer的NR-IQA：

首先提出基于CNN的方法的局限性，本篇受NLP启发，我们利用基于transformer的网络来建模长距离依赖关系，结合CNN从多尺度中提取特征，并对提取的特征之间的非局部依赖性建模。共同做质量预测。

简要概述了Transformer从自然语言领域到CV领域，再进一步到IQA领域的过程。本篇工作的首创性，以及在特征提取上的改进：融合CNN多层输出，即多尺度特征到Transformer。

第四部分： NR-IQA等级信息的学习：

1. 利用内容和失真类型相同，但失真程度不同的等级信息来做质量预测 [39]

2. 利用MOSs间的连续信息以及差异信息 [63]

基于等级信息学习的方法使用固定的边际（根据经验选择）来最小化他们的损失函数，以上算法在真实失真数据集上往往表现不太行。我们的方法也是根据MOS信息来得到相对等级信息，不同点在于我们提出了一个自适应边际的三元损失，不需要一个固定边际。

第五部分： 泛化性能低一直是IQA工作尚未解决的问题

我们的实验：1. 交叉数据集评估；

2. 数据增强已经成功提高了CNNs的泛化性能，因此我们的工作就是如之前提到的，解决模型对于数据增强中的等变变换的敏感度问题。

三、Proposed Method

模型名称： TReS

3.1：特征提取

多尺度特征融合的过程

输入图像： $I\in R^{3\times m\times n}$ (m、n：图像高宽)

模型评估得到的质量分数： q

CNN： $f_{\phi }$

CNN的第i个模块输出特征：    $F_{i}\in R^{b \times c_{i} \times m_{i} \times n_{i} }$ ( i $\in$ {1,2,3,4} )

每一个模块的输出特征维度都不同，所以要先将它们进行一个标准化、池化、dropout层：

Euclidean norm : $F_{i} = \frac{F_{i}}{max(||F_{i}||_{2},\in )}$
$l_{2}$ pooling layer :    $P(x) = \sqrt{g *(x\odot x)}$
$g()$ : 模糊块 —— 通过近似应用 the Nyquist criterion 的 Hamming window 实现
标准化等操作之后的输出结果：    $\bar{F_{i}}\in R^{b \times c_{i} \times m_{4} \times n_{4}}$

然后将得到的 $\bar{F_{i}}$ 做concat :    $\tilde{F} \in R^{b \times \sum_{i} c_{i} \times m_{4} \times n_{4} }$

3.2：基于注意力的特征计算

这一块就是对Transformer的运行机制的详细介绍，熟悉Transformer的人看这块儿会很轻松，博主在这里也直接略掉。后面如有需要，可以单出一期关于Transformer的详解篇。

3.3：特征融合和质量预测

fusion layers : FC

the regression loss : $L_{Quality,B} = \frac{1}{N}\sum ^{N}_{i} ||q_{i}-s_{i}||$

$q_{i }$ ：第 i 个图像的质量预测分数

$s_{i}$ ：其相对应的 ground truth

B: batch size

3.4：相关等级

图像之间的等级信息和关联信息

考虑一个batch中的所有图片的相关等级，其计算复杂度太高，因此本篇只考虑极端的例子。

$q_{max}$ （预测最高分）    $q_{max}^{'}$ (预测次高分)    $q_{min}^{'}$ (预测次低分) $q_{min}$ (预测最低分)

$s_{q_{max}}$ (MOS最高) > $s_{q^{'}_{max}}$ (MOS次高分)   >    $s_{q^{'}_{min}}$ (MOS次低分)    > $s_{q_{min}}$ (MOS最低分)

目标：    $d(q_{max},q^{'}_{max})+margin_{1}\leqslant d(q_{max},q_{min})$

$d(x,y) = |x-y|$

用三元损失来处理这个不等式

然后最小化： $max\left \{0,d(q_{max},q^{'}_{max})-d(q_{max},q_{min}) +margin_{1}\right \}$

同样的： $d(q_{min},q_{min}^{'})+margin_{2}\leq d(q_{max},q_{min})$

margin的选择可以根据每个数据集按照经验选择，但是这样显然不够灵活。

通过公式可以推倒出：    $margin_{1}\leqslant s_{q_{max}^{'}}-s_{q_{min}}$

因此可以考虑给这两个margin设置上界值：

   $margin_{1}=s_{q^{'}_{max}}-s_{q_{min}}$

   $margin_{2}=s_{q_{max}}-s_{q_{min}^{'}}$

relative ranking loss :

3.5：自一致

解决训练过程中，输入图像和它的等变变换通过模型之后出现的得分不一致的现象。

通过图片与其等变变换之间的自监督信号来应用自一致方法。

输入： $I$

CNN输出对数： $f_{\phi,conv }(I)$

Transformer输出对数： $f_{\theta,atten }(I)$

目的： $f_{\phi,conv }(I) = f_{\phi,conv }(\tau (I))$

$f_{\theta ,atten }(I) = f_{\theta ,atten}(\tau (I))$

self-consistency loss :