Quality-aware Pre-trained Models for Blind Image Quality Assessment

二三两。

已于 2024-03-12 16:26:18 修改

阅读量1.2k

点赞数 26

分类专栏：论文解读文章标签：计算机视觉

于 2024-03-12 16:15:21 首次发布

本文链接：https://blog.csdn.net/qq_47182555/article/details/136130880

版权

论文解读专栏收录该内容

8 篇文章

订阅专栏

本文解读了一篇关于利用自监督学习和复杂退化过程改进盲图像质量评估（BIQA）的论文。作者提出QPT模型，通过扩大退化空间和定制的SSL框架，有效解决标记数据缺乏的问题，实现在BIQA数据集上的显著性能提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 前言

本文要是对《Quality-aware Pre-trained Models for Blind Image Quality Assessment》这篇论文的一个解读与总结，原文链接[2303.00521] Quality-aware Pre-trained Models for Blind Image Quality Assessment

盲图像质量评估（BIQA）旨在自动评估单个图像的感知质量，近年来，基于深度学习的方法提高了其性能。然而，标记数据的缺乏在一定程度上限制了基于深度学习的BIQA方法释放其全部潜力。本文作者通过改进退化过程，扩大退化空间，同时采用自监督学习的方式为BIQA定制借口任务QPT来解决这个问题。实验结果表明，本文方法在流行的BIQA数据集上获得了显著的改进。

2 现已有研究存在的问题

（1）第一种方法，是对局部补丁进行采样，并将整个图像的标签（即平均意见得分，MOS）分配给补丁。

存在的问题：局部图像块的感知分数往往与整个图像的分数不同。

（2）第二种方法，利用大规模数据集中的领域知识来执行其他计算机视觉任务。

存在的问题：这些预先训练的模型对于 BIQA 任务来说可能不是最佳的：具有相同内容的图像共享相同的语义标签，但它们的质量可能不同。

（3）第三种方法，在人工退化的合成图像上训练模型，然后将模型回归到小规模目标 BIQA 数据集上。

存在的问题：通过相当简单的退化过程和有限的失真类型/水平生成的图像远非真实。同时合成图像通常来源于高质量图像，图像质量与其内容也密切相关。

（4）第四种方法，自监督学习或无监督学习。

存在的问题：与这些任务的模型主要关注高层信息不同，BIQA 学习的表示应该对各种低层扭曲和高层内容以及它们之间的交互敏感。

3 作者创新

3.1 扩大退化空间

本文设计了一种更复杂的退化过程，适用于BIQA。

将退化类型分为三类：

（1）几何变形，模拟在各种显示设备上编辑过程或适应过程中引入的扭曲，包括缩放的4种操作抖动[32]、水平翻转、下采样和上采样；

（2）颜色变化，可能是由于拍摄或编解码过程中的亮度、色度和色调差异引起的，包括颜色抖动和灰度2种操作；

（3）纹理调整，可以从环境干扰或传输中捕获，包括添加噪声、模糊化和JPEG压缩3种操作。

退化过程可以表示为： $x=D\left ( y;w,p \right )$

其中D表示退化函数，y表示输入图像，w表示退化的超参数（例如尺寸大小，位置，亮度强度），p表示退化操作是否执行， $p \epsilon \left \{ 0,1 \right \}$ 。

基于以上设计，本文提出了一个由随机选择的退化组成的序列，用于更复杂的类型（例如，{尺度抖动，颜色抖动，添加噪声}的列表），其中每个操作都可以被跳过，并且顺序可以打乱：

$x=D^{o}\left ( y \right )=D_{0}\left ( \cdots D_{1} \left ( y;w_{1},p_{1}\cdots ;w_{0},p_{0} \right )\right )$

其中o表示所选降级的数量。

理论上，包含九种退化类型的的空间，组合数量是 $2\times \sum_{i=1}^{9}C_{9}^{i}\times A_{i}^{i}\approx 2\times 10^{7}$

（此处我们可以将求和拆开 $2\times \left ( C_{9}^{1}A_{1}^{1}+C_{9}^{2}A_{2}^{2}+\cdots +C_{9}^{9}A_{9}^{9}\right )$ 表示选择 i 种退化类型进行组合，打乱顺序， $i\epsilon \left ( 1,\cdots ,9 \right )$ ,，公式中的乘2，表示每个操作有包含或跳过）

上图表示使用不同的降解成分生成扭曲图像的图示。与固定序列的过程相比，引入的 skip、shuffle和 High-order 极大地增加了退化空间，覆盖了多样化和真实的扭曲。

3.2 QPT模型

为了充分利用隐藏在如此大量数据下的丰富信息，我们提出了一种新的SSL框架来生成基于MoCoV2的BIQA的QPT模型。通过仔细设计正/负样本和定制质量感知对比损失，我们的方法使模型能够从大量未标记图像中学习质量感知信息，而不是常规的语义感知表示。

本文提出了两中不同的借口任务，一种是基于退化和基于内容。

基于退化：对于同一图像，从不同"视图"提取的补丁被表示为基于退化的负对。它们的内容是一样的，但退化的方式不同，导致质量不一致。为了确保从单个图像生成的补丁的质量尽可能一致，我们将随机裁剪期间面积比的下限设置为 0.5。

基于内容：对于不同的图像，无论其退化类型是否相同，由于内容不同，它们都被视为基于内容的负对。

给一输入补丁 $x_{k,i}^{\left ( n \right )}$ ，采用 F 表示编码网络的转换，再经过 L2正则化得到 $f_{k,i}^{n}=F\left ( x_{k,i}^{n} \right )/\left \| F\left ( x_{k,i}^{n} \right ) \right \|$ ，用于计算点击相似度，使用质量感知对比损失（QC-Loss）进行优化，其公式如下：

下面为质量感知借口任务 (QPT) 的框架。首先，图像因各种退化得到数据增强。其次，将从各个视图中提取补丁以形成补丁对。从同一视图但不同位置生成的对被视为正对。其他对被标记为负对，包括基于降级的和基于内容的。然后，这些补丁通过网络转换为编码特征。最后，这些特征对使用质量感知对比损失（QC-Loss）进行约束。