Blind image quality assessment via learnable attention-based pooling

最新推荐文章于 2021-08-08 13:25:11 发布

NODIECANFLY

最新推荐文章于 2021-08-08 13:25:11 发布

阅读量742

点赞数

分类专栏：图像质量评价

本文链接：https://blog.csdn.net/NODIECANFLY/article/details/88852407

版权

图像质量评价专栏收录该内容

6 篇文章 2 订阅

订阅专栏

J. Gu, G. Meng, S. Xiang, C. Pan, “Blind Image Quality Assessment via Learnable Attention-based Pooling,” Pattern Recognition, 2019.

Abstract

许多基于卷积神经网络（CNN）的用于无参考图像质量评估（BIQA）的最新算法共享共同的两阶段结构，即局部质量评价，随后是全局合并。在本文中，我们主要关注池化阶段，并为BIQA提出一个基于注意力的池化网络（APNet）。核心思想是引入一个可以用数据驱动的方式模拟人类视觉注意力的可学习池。具体而言，APNet通过结合注意模块构建，并允许联合学习局部质量和局部权重。它可以自动学习分配视觉权重，同时生成质量估计。此外，我们进一步引入网络中估计的局部质量和注意力之间的相关性约束来调节训练。该约束惩罚了这样的情况，其中对吸引更多注意力的区域的局部质量估计与总体质量得分差别很大。基准数据库的实验结果表明，我们的APNet实现了最先进的预测精度。通过将关注权重图作为副产品，我们的模型可以更好地解释学习池。

2. 相关工作

Weighted pooling strategies in IQA
许多IQA（尤其是FR-IQA）方法由两个独立的模块组成：本地质量预测和汇集，即分数汇总。在汇集阶段，将局部质量评估与主观视觉固定数据相结合，直观且技术合理[49,50]。然而，由于主观数据在实际应用中不可用，因此自动质量评估需要计算池策略。

在[4]中，Wang和Li将现有的池化策略分为四类：Minkowski池化，基于局部变形的池化，基于显着性的池化和基于对象的池化。基于显着性和基于对象的汇集背后的动机是视觉注意是由某些低级突出特征和高级认知因素（如语义信息）驱动的[51]。在这种情况下，池权重可以由显着性模型[7,52]或对象检测算法[41]生成。基于局部失真的汇集策略通常更加强调高度扭曲的区域。观察任务会影响自上而下的注意力[51]，这一点得到了支持，因此人们在判断图像质量时往往会关注扭曲的区域（如果可观察到的话）[53]。在实践中，可以使用非连续加权方法来实现池化，例如基于微观结构相似性[54]或考虑失真位置，失真强度，频率变化和直方图变化的分布[55]。最近，Kim和Lee [56]实现了一种纯粹从数据中学习的基于局部失真的汇集，但这种基于学习的方法仅适用于FR-IQA。如果没有参考信息，在BIQA设置中实现可学习的池更具挑战性。

在本研究中，我们尝试通过将受约束的注意力模型集成到CNN中，以数据驱动的方式学习BIQA的有效且可解释的池化策略。对真实和合成失真图像的实验结果表明，学习得分汇集策略倾向于基于对象。

3. BIQA via learnable attention-based pooling

3.1 Basic principle of learnable pooling

始终可以通过微调预先训练的分类网络来进行图像质量预测。在此过程中，必须将全局平均合并量附加到本地质量估计层以获得总体质量分数。具体地，设X为尺寸为H×W×C的提取特征图，其中H，W和C分别为高度，宽度和通道尺寸。将x ij表示为X中位置（i，j）的特征向量，大小为1×1×C。令ω为质量估计映射的具有与x ij相同大小的权向量。一张图片的整体质量评价分数为：
在这里插入图片描述
其中运算符“·”表示向量之间的点积。（1）中的预测得分y实际上是本地质量估计的平均汇总。也就是说，将特征映射X与滤波器ω进行卷积给出局部质量图，其中像素值x ij·ω可以被视为特征向量x ij的感受域的质量估计。
总分y是本地质量图上质量估算的平均值。然而，平均合并与我们目前对HVS的理解不一致，因为并非图像中的每个区域都吸引了相同数量的观众[51,53]。许多以前的视觉注意工作表明人类总是关注某些特定的区域，例如，图像中看起来显着的物体。

在许多质量指标中改进汇集的常用方法是使用显着性预测或通用对象检测方法来分配权重。但是，由于显着性预测模型通常是在自然无失真图像上学习的，因此在将它们推广到失真模型的质量汇总时很难确保最佳性能。这促使我们找到一种方法来实现IQA数据的可学习汇集，只有扭曲的图像和主观质量分数。为此，我们探索了注意模块的使用，并提出了一个基于注意力的池网络（APNet）。

一般来说，我们尝试学习一种基于注意力的汇集策略，该策略为X中的每个位置（i，j）分配正权重αij。 权重αij可以解释为位置（i，j）在将局部质量估计组合在一起时的贡献或重要性。所提方法的概述如图1所示。我们的APNet由两个分支组成，分别生成本地质量图和注意权重图。在实践中，我们使用“软”注意[58]模型来计算权重αij，即
在这里插入图片描述

与以前的许多研究不同（例如，[4,7,41]），我们的方法中的汇集通过使用注意模块集成到网络中。它是以数据驱动的方式学习的，没有HVS的任何先验知识和假设。此外，与许多以前的IQA工作不同，它为像素或输入图像的小块分配权重，我们的APNet中的注意权重被分配给特征向量的感知域。具体地，权重αij对应于汇集中的特征向量x ij，并且可以被视为该特征向量在整体质量评估中的感知域的视觉重要性。大的αij意味着局部区域，即x ij的感受场，可能引起视觉注意。

然而，在实践中，我们发现仅通过使用质量分数回归很难学习与视觉注意很好地对应的汇集。为了解决这个问题，我们进一步引入了对网络中质量估计和注意力之间相关性的约束，以辅助训练。我们注意到引入的相关约束不仅可以有益于性能，还可以提高学习池的可解释性。通过图1的b，c可以看出，通过约束，学习池将更多地关注对象或纹理区域。有关相关约束的详细说明将在下一节中给出。

3.2 orrelation constraint to regulate training

训练我们的APNet的目标功能可以定义为质量分数回归损失，
在这里插入图片描述
然而，我们发现只有得分回归损失（4），学习池与人类直觉不一致。它没有给那些可能由人类照料的图像区域赋予更多的权重。然后，我们探索在APNet中进一步引入质量估计和注意力量之间的相关约束，以规范模型训练。
相关约束来自直观的观察。具体而言，由于视觉注意力和质量感知之间的强烈相互作用[51]，那些吸引更多视觉注意力的区域的质量将对整体感知质量产生相对大的影响。也就是说，这些地区的质量评估不太可能与图像质量得分有很大差异。在实践中，约束可以作为应用于分数回归损失的正则化项来实现，其被表述为：
在这里插入图片描述
如果感受野xij吸引了更多的注意力，那么给他分配一个更大的权重，正则化将惩罚估计的局部得分x ij·ω与全局得分y非常不同的情况。当某个区域具有很差的显著性时，即αij 很小时，后面一项可以近似为0。所以加上惩罚项的目标函数为：
在这里插入图片描述
总结：这一节作者讲了在训练的目标函数的设定上，加入了针对显著性区域的一个惩罚项，具体就是当某个注意力区域（具有很高的αij）和我们的实际质量分数y不太可能有太大差异。所以我们在损失函数的设定过程中，不仅要考虑减小整体的预测质量分数和实际质量分数之间的差异，还有尽可能减小显著性区域质量分数和预测分数之间的差异。加入第二个惩罚项后，更有利于网络学习到更符合y的权重w。

3.3. APNet with vector regression

以前的BIQA方法通常在单个回归框架内开发。首先提取一组特征，然后回归模型（例如，SVR或神经网络）将特征映射到质量分数。最近，顾等人。 [41,52]探讨了质量评估的不确定性，并提出了一种矢量回归框架，以提高质量预测的准确性。在实践中，我们注意到APNet的性能也可以从矢量回归中受益。

向量回归的基本思想是学习从特征到预定义belief分数的向量的映射，而不是像以前那样的单个质量分数（通常是平均意见分数（MOS））。具体而言，顾等人。将连续评分量表划分为若干质量区间，并设计belief得分以隐式测量由总体分配给这些区间的输入图像的概率。第k个质量区间的信念得分，表示为sk，定义为:
在这里插入图片描述
其中y是图像的MOS，K是质量区间的数量，μk是第k个预定义区间的中心。
在向量回归框架内，我们的APNet通过用更多的滤波器代替ω来实现，表示为ωk（k = 1,2，…，K），用于将特征向量映射到相应的置信分数。因此，将X与ωk，k = 1,2，…K，进行卷积生成多个局部信念得分图（而不是单个本地质量图），网络最终输出整体信念得分估计的K维向量。将belief score应用到我们APNET的网络中，
在这里插入图片描述

总结：这一部分具体的原理没有太明白，类似于将质量分数划分为不同的bin？

3.4. Implementation details

对拟议的APNet进行训练包括两个步骤。 ResNet [59]（50层）被选为基础网络，因为它可以适应许多视觉任务。我们首先使用BIQA任务中的向量回归微调ResNet，如[41]中所述。然后，我们通过用注意模块替换ResNet中的全局平均池，并继续网络培训来构建APNet。 APNet的权重被初始化为经过微调的ResNet的权重。以下部分提供了更多培训配置和详细信息。

网络架构：软关注模型中的映射g（·）是通过使用一个小网络实现的，该网络包含两个卷积层，其中8个内核大小为3×3×2048，1个内核大小为1×1×8。卷积步幅和填充都设置为1以保持空间分辨率。

使用向量回归进行微调的详细信息：我们首先通过使用向量回归进行微调来使ResNet-50适应BIQA任务。输入图像的大小固定为224×224×3，并且信念得分矢量K的长度设置为5，如[41]中所示。我们使用5-D回归层在ResNet中构建softmax层，然后使用动量为0.9，权重衰减为0.0 0 01且最小化的随机梯度下降（SGD）对整个网络进行微调。批量大小为8个例子。微调过程大约执行10个时间段。学习率最初设定为0.001，并且减少0.1倍，持续两次。用于计算信念得分的质量区间中心的设置，即（7）中的μk（k = 1,2，…，K），与[41]中的相同。

训练基于注意力的汇集网络的细节：在使用向量回归进行微调之后，我们继续SGD训练关注模型的参数，得分映射ωk（k = 1,2，…，K），以及网络中最后三个“瓶颈”块。输入尺寸固定为384×384×3，以放大特征图X的尺寸。培训配置基本上与微调过程中的配置相同。具体来说，我们以0.001的学习率开始SGD，并将其降低0.1的因子。训练进行约10次，学习率降低约2次。动量，重量衰减和批量大小分别设置为0.9,0.0 0 01和8。在实验中将（8）中的超参数λ1/λ2设定为10。

训练数据的生成：我们通过从失真图像中裁剪图像块来收集训练样本（大小为224×224×3或384×384×3）。对于训练，我们为每个补丁分配一个等于其源图像的MOS的质量分数，然后可以通过（7）计算地面实况信念分数。请注意，这样的数据增强和质量分配策略在我们的工作中是可以接受的，因为我们裁剪了大尺寸的补丁，这有助于降低裁剪补丁和源图像之间的质量差异。

在这里插入图片描述