Quality-aware Pre-trained Models for Blind Image Quality Assessment

1 前言

        本文要是对《Quality-aware Pre-trained Models for Blind Image Quality Assessment》这篇论文的一个解读与总结,原文链接[2303.00521] Quality-aware Pre-trained Models for Blind Image Quality Assessment   

        盲图像质量评估(BIQA)旨在自动评估单个图像的感知质量,近年来,基于深度学习的方法提高了其性能。然而,标记数据的缺乏在一定程度上限制了基于深度学习的BIQA方法释放其全部潜力。本文作者通过改进退化过程,扩大退化空间,同时采用自监督学习的方式为BIQA定制借口任务QPT来解决这个问题。实验结果表明,本文方法在流行的BIQA数据集上获得了显著的改进。

2 现已有研究存在的问题

(1)第一种方法,是对局部补丁进行采样,并将整个图像的标签(即平均意见得分,MOS)分配给补丁。

        存在的问题:局部图像块的感知分数往往与整个图像的分数不同。

(2)第二种方法,利用大规模数据集中的领域知识来执行其他计算机视觉任务 。

        存在的问题:这些预先训练的模型对于 BIQA 任务来说可能不是最佳的:具有相同内容的图像共享相同的语义标签,但它们的质量可能不同。

(3)第三种方法,在人工退化的合成图像上训练模型,然后将模型回归到小规模目标 BIQA 数据集上。

        存在的问题:通过相当简单的退化过程和有限的失真类型/水平生成的图像远非真实。同时合成图像通常来源于高质量图像,图像质量与其内容也密切相关。

(4)第四种方法,自监督学习或无监督学习。

        存在的问题:与这些任务的模型主要关注高层信息不同,BIQA 学习的表示应该对各种低层扭曲和高层内容以及它们之间的交互敏感。

3 作者创新

3.1 扩大退化空间

本文设计了一种更复杂的退化过程,适用于BIQA。

将退化类型分为三类

(1)几何变形,模拟在各种显示设备上编辑过程或适应过程中引入的扭曲,包括缩放的4种操作抖动[32]、水平翻转、下采样和上采样;

(2)颜色变化,可能是由于拍摄或编解码过程中的亮度、色度和色调差异引起的,包括颜色抖动和灰度2种操作;

(3)纹理调整,可以从环境干扰或传输中捕获,包括添加噪声、模糊化和JPEG压缩3种操作。

退化过程可以表示为: x=D\left ( y;w,p \right ) 

其中D表示退化函数,y表示输入图像,w表示退化的超参数(例如尺寸大小,位置,亮度强度),p表示退化操作是否执行,p \epsilon \left \{ 0,1 \right \} 。

基于以上设计,本文提出了一个由随机选择的退化组成的序列,用于更复杂的类型(例如,{尺度抖动,颜色抖动,添加噪声}的列表),其中每个操作都可以被跳过,并且顺序可以打乱:

 x=D^{o}\left ( y \right )=D_{0}\left ( \cdots D_{1} \left ( y;w_{1},p_{1}\cdots ;w_{0},p_{0} \right )\right )

其中o表示所选降级的数量。

理论上,包含九种退化类型的的空间,组合数量是 2\times \sum_{i=1}^{9}C_{9}^{i}\times A_{i}^{i}\approx 2\times 10^{7} 

(此处我们可以将求和拆开 2\times \left ( C_{9}^{1}A_{1}^{1}+C_{9}^{2}A_{2}^{2}+\cdots +C_{9}^{9}A_{9}^{9}\right ) 表示选择 i 种退化类型进行组合,打乱顺序, i\epsilon \left ( 1,\cdots ,9 \right ) ,,公式中的乘2,表示每个操作有包含或跳过)

上图表示使用不同的降解成分生成扭曲图像的图示。与固定序列的过程相比,引入的 skip、shuffle和 High-order 极大地增加了退化空间,覆盖了多样化和真实的扭曲。

3.2 QPT模型

为了充分利用隐藏在如此大量数据下的丰富信息,我们提出了一种新的SSL框架来生成基于MoCoV2的BIQA的QPT模型。通过仔细设计正/负样本和定制质量感知对比损失,我们的方法使模型能够从大量未标记图像中学习质量感知信息,而不是常规的语义感知表示。

本文提出了两中不同的借口任务,一种是基于退化和基于内容。

基于退化:对于同一图像,从不同"视图"提取的补丁被表示为基于退化的负对。它们的内容是一样的,但退化的方式不同,导致质量不一致。为了确保从单个图像生成的补丁的质量尽可能一致,我们将随机裁剪期间面积比的下限设置为 0.5。

基于内容:对于不同的图像,无论其退化类型是否相同,由于内容不同,它们都被视为基于内容的负对。

给一输入补丁 x_{k,i}^{\left ( n \right )} ,采用 F 表示编码网络的转换,再经过 L2正则化得到  f_{k,i}^{n}=F\left ( x_{k,i}^{n} \right )/\left \| F\left ( x_{k,i}^{n} \right ) \right \| ,用于计算点击相似度,使用质量感知对比损失(QC-Loss)进行优化,其公式如下:

 下面为质量感知借口任务 (QPT) 的框架。首先,图像因各种退化得到数据增强。其次,将从各个视图中提取补丁以形成补丁对。从同一视图但不同位置生成的对被视为正对。其他对被标记为负对,包括基于降级的和基于内容的。然后,这些补丁通过网络转换为编码特征。最后,这些特征对使用质量感知对比损失(QC-Loss)进行约束。 

以上为我对本片论文的浅显理解,如有不当欢迎指正!

  • 25
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

二三两。

你的鼓励是我最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值