2021-04-21

本文提出了一种受神经认知启发的图像质量评估方法,通过GAN模拟IGM的主动推理模块预测失真图像的主要内容,并结合多流CNN进行多维度质量分析。实验结果展示了其在多个基准数据库上的优越性能和跨数据库的稳健性。
摘要由CSDN通过智能技术生成
# [主动推理的盲图像质量评估|德州仪器TI.com.cn IEEE期刊和杂志| IEEE Xplore](https://ieeexplore.ieee.org/abstract/document/9376644)



Wed Apr 21 2021 21:43:43 GMT+0800 (China Standard Time)

第一节

介绍
--

客观图像质量评估(IQA)旨在自动评估图像的感知质量。在图像获取,传输,压缩和存储的过程中,会引入各种失真,从而导致图像质量下降。通常,作为图像的最终接收者,主观IQA被认为是最准确和可靠的方法。然而,主观质量评估是费力的,昂贵的并且不能被嵌入到实时图像处理系统中。因此,开发用于自动质量预测的客观IQA算法至关重要。

根据参考图像的可用性,客观IQA通常可分为三类:全参考(FR)IQA,降参考(RR)IQA和无参考(NR)IQA \[1\]。利用完整的参考图像或部分信息进行比较,文献中提出了许多出色的FR-IQA或RR-IQA方法。但是,在大多数实际情况下,无法访问参考图像。因此,近年来,NR-IQA(又名盲IQA(BIQA))引起了越来越多的关注。

通常,传统的BIQA方法涉及两个阶段。首先,手工制作的描述符旨在提取质量感知功能\[2\] – \[3\] \[4\] \[5\] \[6\]。接下来,设计一个映射功能以将特征映射到质量值。但是,在对各种变形和图像内容的特征进行建模时,手工特征的表示受到限制。近年来,由于卷积神经网络(CNN)强大的特征表示能力,已经开发了一些基于CNN的BIQA方法。与传统的BIQA相比,基于CNN的方法已经取得了显着改善\[7\],\[8\]。但是,由于缺乏参考信息作为指导,对于现有的基于CNN的方法来预测与主观感知高度一致的图像质量仍然是一项艰巨的任务。

作为高度发达的系统,人类视觉系统(HVS)可以轻松判断图像质量。通过模仿HVS的工作机制来开发BIQA方法是一个自然的想法。实际上,我们“看到”的不是输入刺激的横向翻译,而是外部刺激与大脑内部机制之间相互作用的反应。近年来,对神经科学的一些研究,例如自由能原理\[9\],\[10\]和贝叶斯脑假说\[11\],表明HVS与内部生成机制(IGM)一起用于感知和识别。对于输入场景,IGM尽量避免混乱的信息,并以建设性的方式给出最好的解释\[12\] – \[13\] \[14\]。换句话说,HVS在IGM中具有活动的推理过程。对于输入图像,IGM首先分析像素之间的相关性。然后结合固有的先验知识,IGM会主动推断相应的主要内容,以更好地理解输入。

主要内容包括主要场景信息(即代表输入图像有意义信息的规则结构,以便更好地理解),并将被传输到高级HVS进行解释\[15\]。输入图像及其主要内容之间的预测误差对图像的理解影响不大,但反映出失真并可能导致HVS不适感。此外,主要内容与失真(即,预测误差)之间的相互作用将导致图像内容劣化。这些特性表明我们可以从不同的角度探索图像的感知质量。

在这项工作中,受IGM的启发,首先建立了一个主动的推理模块来模拟IGM的工作过程。在这里,主动推断是指模拟IGM以预测主要内容。考虑到生成对抗网络(GAN)在推断图像内容和合成逼真的图像方面的出色性能,主动推理模块采用GAN框架。但是,GAN通常用于生成高质量或无失真的图像。与此不同的是,我们提出的GAN旨在预测失真图像的主要内容,而不是参考图像的尽力而为。例如,当扭曲的图像被严重破坏时,HVS无法推断出原始的无失真内容。换句话说,IGM将改善对输入图像的理解,但它不会改变基本的视觉信息。扭曲图像的主要语义应与其主要内容高度一致。此外,由于预测误差包括无序信息,因此预测误差和主要内容之间的结构相似性应尽可能小。因此,在目标函数中提出了两个新的IGM启发式约束,即语义相似性约束和结构不相似性约束。结果,所提出的基于GAN的主动推理模块有效地模拟了IGM理论,以预测用于多方面质量分析的主要内容。由于预测误差包括无序信息,因此预测误差和主要内容之间的结构相似性应尽可能小。因此,在目标函数中提出了两个新的IGM启发式约束,即语义相似性约束和结构不相似性约束。结果,所提出的基于GAN的主动推理模块有效地模拟了IGM理论,以预测用于多方面质量分析的主要内容。由于预测误差包括无序信息,因此预测误差和主要内容之间的结构相似性应尽可能小。因此,在目标函数中提出了两个新的IGM启发式约束,即语义相似性约束和结构不相似性约束。结果,所提出的基于GAN的主动推理模块有效地模拟了IGM理论,以预测用于多方面质量分析的主要内容。

接下来,提出了一种基于多流CNN的质量评估器,以从多个方面测量图像质量。通常,图像的心理视觉质量与场景信息(内容相关性),失真类型(失真相关性)和内容劣化(劣化相关性)三个方面高度相关。根据失真图像与其原始内容之间的固有相关性,可以计算出不同的先验信息以对这三个方面的特征进行建模。对于内容依赖性,直接从主要内容中提取相关特征。对于失真相关性,使用预测误差对其特征进行建模。同时,由于HVS对结构高度敏感,因此结构特征被广泛用于测量含量降低。文献\[16\]在失真图像及其主要内容之间,用于分析降级相关性对图像质量的影响。最后,通过考虑不同的先验信息作为输入,构建了一个多流质量评估器,该评估器将内容/失真/降级相关性的特征结合在一起以进行质量预测。在五个流行的IQA数据库上进行的实验证明了我们方法的有效性。尤其是在跨数据库评估中,得益于从主动推理和多方面质量分析中获得的先验信息,在大多数情况下,我们的方法明显优于现有的最新方法。

总而言之,本文的主要贡献可以归纳如下:

1.  我们提出了一种新颖的GAN来模拟IGM的主动推理过程。得益于IGM启发式的两个约束,即语义相似性约束和结构不相似性约束,所提出的基于GAN的主动推理模块可以有效地预测失真图像的主要内容,以进行多方面的质量分析。据我们所知,本文是第一篇采用GAN预测BIQA失真图像的主要内容的文章。
    
2.  基于主要内容,我们设计了一个多流质量评估器网络,该网络可以同时测量内容/失真/降级相关性对图像质量的影响。由于多方面的质量分析,因此所提出的质量评估器可以有效利用IGM的属性来预测图像质量。在五个基准IQA数据库上的实验结果证明了我们方法的优越性。
    

该方法的源代码和预训练模型可从[https://web.xidian.edu.cn/wjj/paper.html获得](https://web.xidian.edu.cn/wjj/paper.html)。

第二节

相关工作
----

在本节中,我们首先回顾一些传统的和基于CNN的BIQA方法。然后,我们简要介绍GAN和一些基于GAN的BIQA方法。

### A.传统的盲像质量评估

在过去的几年中,已经提出了许多BIQA方法。通常,传统的BIQA方法首先提取手工制作的质量感知特征,然后采用回归函数(例如SVR)将特征映射到质量得分中。最常见的方法之一是基于自然场景统计(NSS)的方法。例如,DIIVINE \[17\],BLIINDS-II \[18\]和BRISQUE \[19\]分别从DWT,DCT和空间域中提取与NSS相关的特征以预测感知质量。这些方法基于以下假设:自然的未失真图像具有某些统计属性,这些属性在存在失真的情况下会发生变化。另一种最常见的方法是基于HVS的方法。如NRSL \[20\],LPSI\[21\],M3 \[22\]和\[23\]是基于假设HVS适用于结构信息的假设而提出的,其中提取了有关梯度,亮度对比度或局部二进制模式的特征。在RISE \[24\]中,基于HVS的多尺度特征,提取多尺度特征以进行质量预测。受HVS中的自由能原理的启发,NFEQM \[12\]提出在了解失真类型的前提下使用自由能来预测图像质量。在NRFRM中\[14\],将与NSS相关的功能,与结构相关的功能和与自由能相关的功能组合在一起,以预测图像质量。然而,由于失真和图像内容的复杂性,手工特征的表现能力仍然受到限制。

### B.基于CNN的盲图像质量评估

最近,CNN在各种计算机视觉任务(例如图像分类,对象识别和语义分割)中都取得了巨大的成功。由于强大的特征表示能力,已经提出了许多基于CNN的BIQA方法。

在\[25\]中,为IQA提出了一个浅CNN网络,该网络由一个卷积层,两个完全连接的层和一个输出节点组成。WaDIQaM \[26\]提出了一种用于IQA的深度神经网络,它包括十个卷积层和五个用于特征提取的池化层,以及两个用于回归的全连接层。它以图像斑块作为输入,并计算图像斑块的加权平均分数作为最终图像质量。在BIECON \[27\]中,FR-IQA方法用于计算每个图像补丁的代理质量得分,以训练网络。通常,需要大型数据库来训练强大的深度网络。现有的基准IQA数据库很难满足此要求。

为了解决IQA数据库规模有限的问题,RankIQA \[28\]提出在大规模排序数据集上对网络进行预训练,在该数据集中,通过对参考图像进行失真来自动生成排序图像。在MEON \[29\]中,具有已知失真类型的大规模合成数据集被收集以预训练多任务网络。在DB-CNN \[30\]中,采用了流行的ImageNet数据集和具有已知失真类型和级别的合成收集数据集。对与IQA任务相关的大规模数据集进行预训练可以有效地提高这些基于CNN的方法的性能。

为了利用更复杂的特征,BLINDER \[31\]提出从BIQA的深层CNN模型的多层中提取分层特征,而不仅仅是使用最后一个卷积层中的特征。考虑到不同的对象可能对图像具有不同的主观感知,因此标量质量得分可能不足以表示该差异。PQR \[32\]和DeepRN \[33\]建议使用分数的分布来表示图像质量。为了学习BIQA的更有效的特征表示,梯度图也以两流的形式馈入网络\[34\]。捕获不同级别的信息,并减轻仅从输入失真图像中提取特征的难度。但是,由于缺乏参考信息作为指导,因此很难为BIQA训练健壮的CNN模型。在NAR-DCNN \[35\]中,作者表明具有相似场景的未对齐图像可以很好地用作参考。但是,仍然需要探索选择具有相似场景的图像的方法。

### C.生成对抗网络

通常,GAN \[36\]包含两个子网:一个生成器G 生成样本和鉴别器 d 从生成的样本中区分出真实的样本。的训练G 和 d 是一款具有目标功能的minmax游戏:

分G最大限度d伏特(D ,G) =EX 〜Pd一个牛逼一\[日志(D (x)) \]+Ež〜Pž\[日志(1 − D (G (z)))\](1)

 查看资料![Right-click on figure for MathML and additional features.](https://ieeexplore.ieee.org/assets/img/icon.support.gif "右键单击MathML和其他功能的图形或方程式。")\\begin{align*}&\\hspace {-0.5pc}\\min \\limits _{G} \\max \\limits _{D} V\\left ({D, G}\\right) = {\\mathbb {E}_{x \\sim {P_{data}}}}\\left \[{ {\\log \\left ({{D\\left ({x }\\right)} }\\right)} }\\right\] \\\& \\qquad\\qquad\\qquad\\qquad +\\, {\\mathbb {E}_{z \\sim {P_{z}}}}\\left \[{ {\\log \\left ({{1 - D\\left ({{G\\left ({z }\\right)} }\\right)} }\\right)} }\\right\]\\tag{1}\\end{align*} 在哪里 Pd一个牛逼一 是真正的数据分布, Pž 是输入噪声的分布。 d 已优化,可以为真实样本和生成的样本分配正确的标签。 G 优化以最小化 日志(1 − D (G (z))) 。通过对抗训练,期望生成器生成更多的“现实”样本来欺骗鉴别器。已经开发了各种GAN模型,并在许多图像生成任务中取得了巨大的成功,例如图像合成,图像超分辨率,图像样式转换和图像增强,这证明了GAN在生成逼真的语义和高质量细节方面的杰出表现。

但是,众所周知,GAN的训练会遇到不稳定的问题,例如梯度消失,模式崩溃等\[37\]。为了减轻对抗训练过程的不稳定性,WGAN \[38\]提出使用地球移动(EM)距离而不是詹森-香农(Jensen-Shannon)散度来测量实际数据分布和生成的数据分布的接近程度。在温和的假设下,EM距离是连续的,几乎在任何地方都是可微的。与传统的0-1分类不同,区分器d 在WGAN中解决了回归问题。减重还用于d 实施Lipschitz约束。但是,权重裁剪可能会导致不良行为,例如仅生成不良样本或无法收敛。因此,WGAN-GP \[39\]提议削减权重梯度的范数,而不是削减权重。d 相对于其输入的输出,直接执行Lipschitz约束。在我们的工作中,采用WGAN-GP的目标功能来稳定对抗训练。

最近几年还开发了一些基于GAN的IQA方法\[40\] – \[41\] \[42\] \[43\] \[44\] \[45\]。在GADA \[40\]中,GAN被用来生成失真的图像以扩大训练数据集的大小。为了解决参考图像的缺失,H-IQA \[41\]提出使用GAN模型从扭曲的图像恢复幻觉的参考。由于很难设计通用GAN来恢复所有失真类型的高质量参考图像,因此H-IQA引入了一种新颖的改进型鉴别器来限制不良恢复的影响。然后,将失真的图像和差异图(即,失真的图像与其幻觉参考之间的误差)转发到回归网络中,以预测图像质量。受自由能原理RAN4IQA的激励\[45\]假设HVS将揭开失真的面纱,并添加细节以找出原始内容。因此,建立了GAN模型来还原失真的图像。然后建立一个评估器,以测量失真图像与其恢复的对应图像之间的感知差异。我们的方法在以下方面与它们不同。(1)首先,我们提出的IGM指导的GAN并非旨在将失真的图像恢复为质量完美或无失真的图像,而是预测可能仍包含降级信息的主要内容。因为当图像严重失真时,IGM无法有效地推断原始或无失真的内容。(2)在我们的方法中,通过利用基于GAN的主动推理模块的输出,可以获得不同的先验信息以同时从多个方面测量图像质量,而不仅仅是测量失真图像与其恢复的对应图像之间的差异。通过整合多种信息作为输入,建议的质量评估人员可以更好地利用IGM的BIQA属性。

第三节。

拟议方法
----

通过用GAN模仿IGM的主动推理并使用CNN从多个方面测量图像质量,这项工作建立了一个新颖的BIQA模型(称为AIGQA)。如图1所示,AIGQA主要由两部分组成:基于GAN的主动推理模块和基于多流CNN的质量评估器。主动推理模块旨在模拟IGM的主动推理过程,以预测主要内容。质量评估者旨在将多流先验信息整合在一起,以预测感知质量。接下来,我们将详细讨论主动推理模块和质量评估器。

[![图1.-拟议的AIGQA流程图。 AIGQA主要由两部分组成:基于GAN的主动推理模块和基于多流CNN的质量评估器。](https://ieeexplore.ieee.org/mediastore_new/IEEE/content/media/83/9263394/9376644/wu1-3064195-small.gif)

](https://ieeexplore.ieee.org/mediastore_new/IEEE/content/media/83/9263394/9376644/wu1-3064195-large.gif)

**图。1。**

拟议中的AIGQA的流程图。AIGQA主要由两部分组成:基于GAN的主动推理模块和基于多流CNN的质量评估器。

[查看全部](https://ieeexplore.ieee.org/document/9376644/all-figures)

### A.主动推理模块

在IGM的启发下,首先提出了一种主动推理模块来预测失真图像的主要内容。在过去的几年中,GAN在图像生成任务中表现出了卓越的性能。它可以有效地理解图像数据的表示并合成逼真的样本。另一方面,IGM可以看作是“综合分析”的过程\[12\]。因此,采用GAN框架来构造主动推理模块,该模块包括两个组件:生成器G 和鉴别器 d 。 G 拍摄失真的图像 一世d 作为输入并旨在预测其主要内容 一世G , IE, 一世G= G (一世d) 。 d 旨在区分真正的主要内容 一世\[R 这是由IGM从预测版本中推断出来的 一世G 。通过之间的对抗训练G 和 d ,预测的主要内容 一世G 预期与真实的主要内容没有区别 一世\[R 。

通过采用WGAN-GP \[39\]框架,D的目标函数定义为:

d∗= arg分钟(-大号一dv+大号g ^ P)(2)

 查看资料![Right-click on figure for MathML and additional features.](https://ieeexplore.ieee.org/assets/img/icon.support.gif "右键单击MathML和其他功能的图形或方程式。")\\begin{equation*} {D^{*}} = \\arg \\min \\left ({- {L_{adv}} + {L_{GP}} }\\right)\\tag{2}\\end{equation*} 在哪里 大号一dv 是对抗损失, 大号g ^ P 是梯度惩罚项。 大号一dv  公式为:大号一dv=E一世\[R〜P\[R\[ D (一世\[R) \]-E一世G〜PG\[ D (一世G) \](3) 查看资料![Right-click on figure for MathML and additional features.](https://ieeexplore.ieee.org/assets/img/icon.support.gif "右键单击MathML和其他功能的图形或方程式。")\\begin{equation*} {L_{adv}} = {\\mathbb {E}_{{I_{r}} \\sim {P_{r}}}}\\left \[{ {D\\left ({{{I_{r}}} }\\right)} }\\right\] - {\\mathbb {E}_{I_{g} \\sim {P_{g}}}}\\left \[{ {D\\left ({{I_{g}} }\\right)} }\\right\]\\tag{3}\\end{equation*} 在哪里 P\[R 是真正的主要内容的分布, PG 是由 G 。 大号g ^ P  公式为:大号g ^ P= λEX^〜PX^\[(∥∇X^D (X^) ∥2个− 1)2个\](4) 查看资料![Right-click on figure for MathML and additional features.](https://ieeexplore.ieee.org/assets/img/icon.support.gif "右键单击MathML和其他功能的图形或方程式。")\\begin{equation*} {L_{GP}} = \\lambda {\\mathbb {E}_{\\hat x \\sim {P_{\\hat x}}}}\\left \[{ {{{\\left ({{{{\\left \\|{ {{\\nabla _{\\hat x}}D\\left ({{\\hat x} }\\right)} }\\right \\|}_{2}} - 1} }\\right)}^{2}}} }\\right\]\\tag{4}\\end{equation*} 在哪里 PX^ 代表沿两点之间的直线均匀采样的采样分布 P\[R 和 PG 。 ∥∇X^D (X^) ∥2个 是的梯度范数 d 相对于其输入的输出。 λ 是惩罚系数,如WGAN-GP \[39\]所示,λ = 10 在我们的实验中。在对抗损失的约束下大号一dv ,发电机 G  经过优化以生成逼真的图像。

除对抗损失外,为了优化 G 生成更逼真的样本,像素损失 大号p我X 和内容丢失 大号Ç ø Ñ吨ë Ñ吨 \[46\]也被添加到损失函数中G 。 大号p我X 计算预测的主要内容之间的差异 一世G 和真正的主要内容 一世\[R 在像素空间上,公式为:

大号p我X= M小号E(一世G,一世\[R)(5)

 查看资料![Right-click on figure for MathML and additional features.](https://ieeexplore.ieee.org/assets/img/icon.support.gif "右键单击MathML和其他功能的图形或方程式。")\\begin{equation*} {L_{pix}} = MSE\\left ({I_{g}, I_{r}}\\right)\\tag{5}\\end{equation*} 在哪里 中号小号E(⋅) 计算两个输入之间的均方误差。内容丢失大号Ç ø Ñ吨ë Ñ吨 ,也就是感知损失,定义为 一世G 和 一世\[R  在特征空间:大号Ç ø Ñ吨ë Ñ吨= M小号E(ϕķ(一世G) -ϕķ(一世\[R))(6) 查看资料![Right-click on figure for MathML and additional features.](https://ieeexplore.ieee.org/assets/img/icon.support.gif "右键单击MathML和其他功能的图形或方程式。")\\begin{equation*} {L_{content}} = MSE\\left ({{\\phi _{k}}\\left ({{I_{g}} }\\right) - {\\phi _{k}}\\left ({{{I_{r}}} }\\right)}\\right) \\tag{6}\\end{equation*} 在哪里 ϕķ(⋅) 是位于 ķ 预训练网络的第th卷​​积层。在这项工作中,伏特GG3 ,3 ImageNet上预训练的来自VGG19网络的数据被定义为用于计算内容损失的特征空间。像素损失大号p我X 确保 G 可以捕获正确的低频。内容丢失大号Ç ø Ñ吨ë Ñ吨 会增强能力 G 学习感性表征。此外,请注意,由于我们无权获取IGM推断的真实主要内容,因此采用了失真图像的参考图像作为替代。

在最近的GAN模型中,例如SRGAN \[47\],DeblurGAN \[46\],对抗性损失,像素损失和内容损失被广泛用于生成高质量或无失真的图像。但是,很难训练通用GAN来恢复所有失真类型的参考图像。与此不同的是,我们提出的GAN旨在模仿IGM的主动推理过程来预测主要内容,而不是还原原始或无失真的图像。因此,如图2所示,在IGM的目标函数中提出了两个受IGM启发的约束。G 使预测的主要内容与IGM更加一致。

[![图2-建议的生成器$ G $在GAN优化过程中具有两个受IGM启发的约束。 $ {\ Re _ {semantics}} \ left({{I_ {g}},{I_ {d}}} \ right)$表示等式中定义的语义相似性。 7,应尽可能大。 $ {\ Re _ {structure}} \ left({{I_ {g}},{I_ {u}}} \ right)$表示等式中定义的结构相似性。 11,应尽可能小。 以失真的图像作为输入,$ G $旨在预测主要内容。](https://ieeexplore.ieee.org/mediastore_new/IEEE/content/media/83/9263394/9376644/wu2-3064195-small.gif)

](https://ieeexplore.ieee.org/mediastore_new/IEEE/content/media/83/9263394/9376644/wu2-3064195-large.gif)

**图2。**

拟议的发电机 G 在GAN优化过程中受到两个IGM启发的约束。 \[R小号Ë中号一个Ñ吨我Ç小号(一世G,一世d) 指[等式中](https://ieeexplore.ieee.org/abstract/document/#deqn7)定义的语义相似性[。](https://ieeexplore.ieee.org/abstract/document/#deqn7)[7](https://ieeexplore.ieee.org/abstract/document/#deqn7),应尽可能大。\[Rš吨ř ü Ç吨ù ř Ë(一世G,一世ü) 指[等式中](https://ieeexplore.ieee.org/abstract/document/#deqn11)定义的结构相似性[。](https://ieeexplore.ieee.org/abstract/document/#deqn11)[11](https://ieeexplore.ieee.org/abstract/document/#deqn11),应尽可能小。以失真的图像作为输入,G 旨在预测主要内容。

[查看全部](https://ieeexplore.ieee.org/document/9376644/all-figures)

[![图3.-多流质量评估器的配置。 子网络1至子网络4分别将失真图像,主要内容,失真图和结构劣化图作为输入。 每个子网配置为一系列堆叠的层,其中包括{CONV-64,CONV-64,POOL,CONV-128,CONV-128,POOL,CONV-256,CONV-256,POOL,CONV-512,CONV-512 , 水池}。 CONV- $ m $表示卷积层,具有$ 3 x 3内核,$ 1 x 1跨度和$ m $输出通道。 POOL表示$ 2 x 2 $内核和$ 2 x 2 $跨度的maxpooling层。 GLP表示全局最大池化层。](https://ieeexplore.ieee.org/mediastore_new/IEEE/content/media/83/9263394/9376644/wu3-3064195-small.gif)

](https://ieeexplore.ieee.org/mediastore_new/IEEE/content/media/83/9263394/9376644/wu3-3064195-large.gif)

**图3。**

多流质量评估器的配置。子网络1至子网络4分别将失真图像,主要内容,失真图和结构劣化图作为输入。每个子网配置为一系列堆叠的层,其中包括{CONV-64,CONV-64,POOL,CONV-128,CONV-128,POOL,CONV-256,CONV-256,POOL,CONV-512,CONV-512 , 水池}。转换米 表示卷积层 3 × 3 核心, 1 × 1 大步走 米 输出通道。POOL表示具有2 × 2 内核和 2 × 2 大步前进。GLP表示全局最大池化层。

[查看全部](https://ieeexplore.ieee.org/document/9376644/all-figures)

[![图4.-生成器$ G $的体系结构细节。 CONV表示卷积层,其内核为$ 3 x 3 $,跨度为$ 1 x 1 $。 POOL表示maxpooling层,其内核为$ 2 x 2 $,跨度为$ 2 x 2 $。 DECONV表示具有3美元乘以3美元内核,2美元乘以2美元跨度的反卷积层。 IN表示实例规范化层。 下面列出了每层要素地图的尺寸​​,格式为$ channel \ times width \ times height $。 $ W $和$ H $是输入图像的宽度和高度。](https://ieeexplore.ieee.org/mediastore_new/IEEE/content/media/83/9263394/9376644/wu4-3064195-small.gif)

](https://ieeexplore.ieee.org/mediastore_new/IEEE/content/media/83/9263394/9376644/wu4-3064195-large.gif)

**图4。**

发电机的架构细节 G 。CONV表示卷积层具有3 × 3 核心, 1 × 1 大步前进。POOL表示最大池化层,其中2 × 2 核心, 2 × 2 大步前进。DECONV表示反卷积层3 × 3 核心, 2 × 2 大步前进。IN表示实例规范化层。下面列出了每一层要素地图的尺寸​​,格式为Ç ħ一个Ñ Ñ ë升×瓦特我d吨ħ × ħ ë我克^ h Ť 。 w ^ 和 H 是输入图像的宽度和高度。

[查看全部](https://ieeexplore.ieee.org/document/9376644/all-figures)

[![图5.-当输入图像因高斯白噪声而失真时,计算出的先验信息的可视化。 (a)和(e)是不同失真级别的输入失真图像,其MOS值分别为5.5和3.8。 MOS越低,失真水平越高,感知质量越差。 (b)和(f)是活动推理模块生成的主要内容。 (c)和(g)是失真图。 (d)和(h)是结构退化图。](https://ieeexplore.ieee.org/mediastore_new/IEEE/content/media/83/9263394/9376644/wu5abcdefgh-3064195-small.gif)

](https://ieeexplore.ieee.org/mediastore_new/IEEE/content/media/83/9263394/9376644/wu5abcdefgh-3064195-large.gif)

**图5。**

当输入图像因高斯白噪声而失真时,可视化所计算的先验信息。(a)和(e)是不同失真级别的输入失真图像,其MOS值分别为5.5和3.8。MOS越低,失真水平越高,感知质量越差。(b)和(f)是活动推理模块生成的主要内容。(c)和(g)是失真图。(d)和(h)是结构退化图。

[查看全部](https://ieeexplore.ieee.org/document/9376644/all-figures)

#### 1)语义相似性约束:

IGM的目的是推断主要内容,以帮助人脑更好地理解输入图像,但不会改变输入的基本视觉信息。例如,对于被高斯模糊严重破坏的失真图像,IGM无法推断原始含量。如图6(b)所示,IGM无法像图6(a)一样清晰地推断文本消息。输入图像的主要语义一世d 及其主要内容 一世G 应该是高度一致的。因此,为了保持理解和解释图像的一致性,通过以下公式最大化来定义此处提出的语义相似性约束:

\[R小号Ë中号一个Ñ吨我Ç小号(一世G,一世d) = − M小号E(ϕķ(一世G) -ϕķ(一世d))(7)

 查看资料![Right-click on figure for MathML and additional features.](https://ieeexplore.ieee.org/assets/img/icon.support.gif "右键单击MathML和其他功能的图形或方程式。")\\begin{equation*} {\\Re _{semantics}}\\left ({{I_{g}}, {I_{d}} }\\right) = {\\mathrm{ - }} MSE\\left ({{\\phi _{k}}\\left ({{I_{g}} }\\right) - {\\phi _{k}}\\left ({{{I_{d}}} }\\right)}\\right) \\tag{7}\\end{equation*} 在哪里 ϕķ(⋅) 与[等式中](https://ieeexplore.ieee.org/abstract/document/#deqn6)的相同[。](https://ieeexplore.ieee.org/abstract/document/#deqn6)[如图6所示](https://ieeexplore.ieee.org/abstract/document/#deqn6),因为CNN自然地学习从浅到深的层深度的分层语义特征。

[![图6-高斯模糊失真图像的主要内容的可视化。 (a)是参考图像。 (b)是高斯模糊失真的图像吗? (c)是活动推理模块生成的主要内容。](https://ieeexplore.ieee.org/mediastore_new/IEEE/content/media/83/9263394/9376644/wu6abc-3064195-small.gif)

](https://ieeexplore.ieee.org/mediastore_new/IEEE/content/media/83/9263394/9376644/wu6abc-3064195-large.gif)

**图6。**

高斯模糊失真图像主要内容的可视化。(a)是参考图像。(b)是高斯模糊失真图像吗?(c)是活动推理模块生成的主要内容。

[查看全部](https://ieeexplore.ieee.org/document/9376644/all-figures)

#### 2)结构差异约束:

为了最好地解释输入图像,IGM还尝试避免由预测误差表示的无序信息。 一世ü 输入的失真图像之间 一世d 及其主要内容 一世G ,

一世ü= |一世d-一世G|(8)

 查看资料![Right-click on figure for MathML and additional features.](https://ieeexplore.ieee.org/assets/img/icon.support.gif "右键单击MathML和其他功能的图形或方程式。")\\begin{equation*} {I_{u}} = \\left |{ {I_{d} - {I_{g}}} }\\right |\\tag{8}\\end{equation*} 主要内容 一世G 包含有关输入场景的主要结构信息。而预测误差一世ü 包含无序的信息。因此,主要内容之间的结构相似性一世G 和预测误差 一世ü 应该尽可能小。在这项工作中,我们利用经典的SSIM \[16\]计算结构相似度,其定义为:小号小号一世中号(x ,y) =(2μXμÿ+C1个)(2σXÿ+C2个)(μ2个X+μ2个ÿ+C1个)(σ2个X+σ2个ÿ+C2个)(9) 查看资料![Right-click on figure for MathML and additional features.](https://ieeexplore.ieee.org/assets/img/icon.support.gif "右键单击MathML和其他功能的图形或方程式。")\\begin{equation*} SSIM\\left ({{x,y} }\\right) = \\frac {{\\left ({{2{\\mu _{x}}{\\mu _{y}} + {C_{1}}} }\\right)\\left ({{2{\\sigma _{x}}_{y} + {C_{2}}} }\\right)}}{{\\left ({{\\mu _{x}^{2} + \\mu _{y}^{2} + {C_{1}}} }\\right)\\left ({{\\sigma _{x}^{2} + \\sigma _{y}^{2} + {C_{2}}} }\\right)}} \\tag{9}\\end{equation*} 在哪里 X 和 ÿ 是要比较的两个信号, μX 和 μÿ 是平均强度 σX 和 σÿ 是标准偏差,常数 C1个 和 C2个 当分母很小时,可以使用它们来避免不稳定。通过应用[等式](https://ieeexplore.ieee.org/abstract/document/#deqn9) 局部区域内整个图像的[9个](https://ieeexplore.ieee.org/abstract/document/#deqn9)像素8 × 8 方窗,结构相似图 一世s 在主要内容之间 一世G 和预测误差 一世ü 获得。为方便起见,计算结构相似度图的过程表示为:一世s= S小号一世中号(一世G,一世ü)(10) 查看资料![Right-click on figure for MathML and additional features.](https://ieeexplore.ieee.org/assets/img/icon.support.gif "右键单击MathML和其他功能的图形或方程式。")\\begin{equation*} {I_{s}} = SSIM\\left ({{I_{g}, {I_{u}}} }\\right)\\tag{10}\\end{equation*}

请注意,根据SSIM \[16\]中的定义,一世G 和 一世ü 首先转换为灰度图像进行计算 一世s 。结果,为了保持主要内容的结构完整性,通过最小化以下公式来定义结构不相似性约束:

\[Rš吨ř ü Ç吨ù ř Ë(一世G,一世ü) =1个w ^H∥小号小号一世中号(一世G,一世ü) ∥2个2个(11)

 查看资料![Right-click on figure for MathML and additional features.](https://ieeexplore.ieee.org/assets/img/icon.support.gif "右键单击MathML和其他功能的图形或方程式。")\\begin{equation*} {\\Re _{structure}}\\left ({{I_{g}}, {I_{u}} }\\right) = \\frac {1}{WH}\\left \\|{ SSIM\\left ({{I_{g}, {I_{u}}} }\\right) }\\right \\|_{2}^{2} \\tag{11}\\end{equation*} 在哪里 w ^ 和 H 代表...的宽度和高度 一世G 。

最后,目标函数 G 制定为

G∗= arg分钟(μ1个大号一dv+μ2个大号p我X+μ3大号Ç ø Ñ吨ë Ñ吨+μ4大号小号小号+μ5大号小号d)(12)

 查看资料![Right-click on figure for MathML and additional features.](https://ieeexplore.ieee.org/assets/img/icon.support.gif "右键单击MathML和其他功能的图形或方程式。")\\begin{align*}&\\hspace {-0.5pc}{G^{*}} = \\arg \\min \\left ({{\\mu _{1}}{L_{adv}} + {\\mu _{2}}{L_{pix}} }\\right. \\\&\\left.{ + {\\mu _{3}}{L_{content}} + {\\mu _{4}}{L_{ss}} + {\\mu _{5}}{L_{sd}}}\\right) \\tag{12}\\end{align*} 在哪里 大号小号小号= -\[R小号Ë中号一个Ñ吨我Ç小号(一世G,一世d) , 大号小号d=\[Rš吨ř ü Ç吨ù ř Ë(一世G,一世ü) 。在我们的实验中,我们设定μ2个= 1.0 , μ3= 0.01 , μ4= 0.01 和 μ5= 1.0 平衡每次损失的规模。为了μ1个 , 我们设置 μ1个=μ2个 为简单起见。受益于IGM的两个约束,提议的GAN具有IGM的属性来预测主要内容。

### B.质量评估员

基于主要内容,提出了一种可以从多个方面测量图像质量的基于多流CNN的质量评估器。现有的基于CNN的方法通常仅将失真的图像作为输入,这使得很难学习有效的特征以进行多方面的质量分析。如上所述,图像的心理视觉质量与三个方面(即内容相关性,失真相关性和降级相关性)高度相关,并且可以计算出不同的先验信息以对这三个方面的特征进行建模。特别是主要内容一世G 用于分析内容相关性对图像质量的影响。失真相关性的特征由失真图表示一世d米 定义为预测误差,即 一世d米=一世ü 。此外,通过再次应用SSIM \[16\],可从结构退化图测量退化依赖性的影响一世小号米 ,定义为扭曲图像之间的结构相似度图 一世d 及其主要内容 一世G 。

因此,通过结合三个方面的特征,构建了如图3所示的多流质量评估器。主要内容一世G ,失真图 一世d米 和结构退化图 一世小号米 分别馈入子网2,子网3和子网4,以从不同方面提取特征。此外,图像失真一世d 还被输入到子网1中,以提取有关原始输入场景的信息。然后将来自四个子网的特征连接在一起,并传输到融合网络中以预测质量得分。整个过程可表述为:

q==Q (一世d,一世G,一世d米,一世小号米)F(小号üb1个(一世d),ş üb2个(一世G),ş üb3(一世d米),ş üb4(一世小号米))(13)

 查看资料![Right-click on figure for MathML and additional features.](https://ieeexplore.ieee.org/assets/img/icon.support.gif "右键单击MathML和其他功能的图形或方程式。")\\begin{align*} q=&Q\\left ({{I_{d},{I_{g}},{I_{dm}},{I_{sm}}} }\\right) \\\=&F\\left ({{sub_{1}\\left ({{I_{d}} }\\right),sub_{2}\\left ({{I_{g}} }\\right),sub_{3}\\left ({{{I_{dm}}} }\\right),sub_{4}\\left ({{{I_{sm}}} }\\right)} }\\right)\\tag{13}\\end{align*} 在哪里 问 , F , 小号üb一世 分别表示整个质量评估器,融合网络和子网i的过程。注意一世小号米 是一个灰度图像,因此子网络4的第一个卷积层的输入通道设置为1。通过以主观质量得分为目标,MSE损失用于训练 问 。通过端到端优化,质量评估器可以从各个方面有效地分析图像质量,并预测与主观感知高度一致的图像质量。

第四节。

实验结果
----

在本节中,我们首先描述实验设置,包括数据集,评估标准和网络体系结构详细信息。然后,我们将AIGQA与其他BIQA方法的性能进行比较。接下来,我们进行一系列的消融研究,以确定AIGQA关键组成部分的贡献。最后,我们还介绍了一些从活动推理模块获得的可视化示例。

### A.实验装置

#### 1)培训和数据集:

主动推理模块和质量评估器均采用Adam优化算法进行训练。训练过程分为两个步骤:对收集的合成图像进行预训练,并对标准IQA数据库进行微调。

在预训练步骤中,收集的合成图像来自滑铁卢勘探数据库(WED)\[56\]。WED包含94880个失真图像,这些图像是从4744个高质量原始图像生成的,该图像具有5种级别的4种失真类型,即白高斯噪声,高斯模糊,JPEG压缩和JPEG2000压缩。与\[28\] – \[29\] \[30\]中一样,我们还添加了来自TID2013 \[57\]的13种失真类型(即,#2,#5,#6,#7,#9,#14,#15 ,#16,#17,#18,#19,#22,#23)。由于FR-IQA在主观感知方面实现了高度一致性。因此,类似于\[27\],最先进的FR-IQA方法VSI用于标记每个失真图像的质量得分。结果,收集了大规模的训练集。活动推理模块和质量评估器都在收集的训练数据集中进行了预训练。更具体地说,在预训练过程中,我们首先训练基于GAN的主动推理模块。然后,我们冻结GAN的权重,并对质量评估器进行预培训。

在微调步骤中,仅质量评估器在标准IQA数据库上进行微调,包括LIVE \[58\],CSIQ \[59\],TID2013 \[57\],LIVE-MD \[60\],LIVE-CH \[61\]和KADID-10K \[62\]。LIVE包含通过添加5种失真类型从29张参考图像生成的779张失​​真图像。CSIQ包含从30个参考图像,6种失真类型创建的886个失真图像。TID2013具有从25张参考图像,24种失真类型以及每种失真类型的五个级别生成的3000个失真图像。LIVE-MD专注于多重失真的图像,该图像包含由15张参考图像创建的450个多重失真的图像。LIVE-CH专注于真实的失真,其中包含在阅读世界中由大量相机设备捕获的1162张图像。并且在LIVE-CH中没有参考图像。KADID-10k是最近发布的大型合成数据库,其中包含81张原始图像,每张图像都按5个级别的25种失真类型进行了降级。主观质量值(即,

#### 2)评估标准:

使用Pearson线性相关系数(PLCC)和Spearman秩阶相关系数(SROCC)来衡量性能。PLCC将测量预测分数与基本事实之间的线性相关性,公式为:

PL CC=∑一世(p一世-p米)(p^一世-p^米)∑一世(p一世-p米)2个-----------√∑一世(p^一世-p^米)2个-----------√(14)

 查看资料![Right-click on figure for MathML and additional features.](https://ieeexplore.ieee.org/assets/img/icon.support.gif "右键单击MathML和其他功能的图形或方程式。")\\begin{equation*} P L C C=\\frac{\\sum \\limits_{i}\\left(p_{i}-p_{m}\\right)\\left(\\hat{p}_{i}-\\hat{p}_{m}\\right)}{\\sqrt{\\sum \\limits_{i}\\left(p_{i}-p_{m}\\right)^{2}} \\sqrt{\\sum \\limits_{i}\\left(\\hat{p}_{i}-\\hat{p}_{m}\\right)^{2}}}\\tag{14}\\end{equation*} 在哪里 p一世 和 p^一世 是预测分数和主观质量分数, p米 和 p^米 是每个的平均值。SROCC用于测量预测分数与基本事实之间的单调性,其定义为:小号ř Ô ÇC= 1 -6∑我= 1大号(米一世-ñ一世)2个L (大号2个− 1)(15) 查看资料![Right-click on figure for MathML and additional features.](https://ieeexplore.ieee.org/assets/img/icon.support.gif "右键单击MathML和其他功能的图形或方程式。")\\begin{equation*} SROCC = 1 - \\frac {{6\\sum \\limits _{i = 1}^{L} {{{({m_{i}} - {n_{i}})}^{2}}} }}{{L({L^{2}} - 1)}}\\tag{15}\\end{equation*} 在哪里 大号 是图片数量, 米一世 是的等级 p一世 在预测分数中 ñ一世 是的等级 p^一世 在主观质量值上。对于这两个标准,较高的值表示算法的性能较高。

#### 3)网络架构细节:

在我们的实验中,鉴别器的架构 d 与PatchGAN \[63\]相同。它需要ñ× N 裁剪补丁作为输入,并区分每个补丁是真实的还是伪造的,即真实的主要内容或预测的主要内容。鉴别器d 对整个输入图像进行卷积运算,并将所有色块的平均响应设置为最终的输出 d 。 ñ 可以比图片的完整尺寸小很多,我们设置 ñ= 70 如\[46\],\[63\]所示。通过将注意力限制在局部补丁的规模上,可以更好地对高频建模。此外,这种补丁级鉴别器具有较少的参数,并且可以应用于任意大图像。

在发电机中 G ,采用U型网络。如图4所示,主要有两个反相G 。第一个是下采样过程,其中特征通道的数量增加,并且特征图的空间大小通过一系列堆叠的层逐渐被下采样。第二阶段是上采样过程,其中特征通道减少,空间大小逐渐上采样。通过跳过连接\[63\],将镜像层的要素图连接在一起以共享分层表示。此外,类似于\[46\],\[64\],将输入图像直接与U形网络的最后一个特征图连接在一起,以提供有关输入场景的更多原始信息。在生成器中,LeakyReLU被用作所有反卷积层和卷积层的激活函数,除了最后一个采用Tanh的层。

### B.各个数据库内的性能比较

在本节中,将在单个标准IQA数据库中进行实验以验证AIGQA的有效性。根据\[30\],\[41\]和\[65\]中的实验方案,将一个数据库随机分为80%用于训练和20%用于测试。为了确保训练集和测试集之间没有重叠的图像内容,根据参考图像对数据库进行划分。对于LIVE-CH,没有参考图像,因此我们直接将数据库除以失真的图像。重复所有实验100次,并报告了SROCC和PLCC的中位数。

我们首先在5个流行的基准IQA数据库上将提议的AIGQA与8种传统BIQA方法,9种基于CNN的方法和1种基于GAN的方法进行了比较。结果列在选项卡中。I,最好的两个SROCC和PLCC以粗体突出显示。对于8种传统的BIQA方法,所有结果均由其作者发布的源代码重现。对于基于9 CNN和1基于GAN的方法,结果来自原始论文。详细比较如下:

1.  与8种传统BIQA方法相比,AIGQA在所有数据库上均实现了最佳性能。
    
2.  与基于CNN的9种方法相比,AIGQA在CSIQ,TID2013和LIVE-MD这3个数据库上也获得了有竞争力的结果。在LIVE上,AIGQA的性能略低,但仍然达到可接受的结果,约为0.96 SROCC和0.957 PLCC。至于LIVE-CH,AIGQA取得了次佳的成绩。但是,由于合成失真和真实失真之间的巨大差异,与采用ImageNet数据库进行预训练的DB-CNN \[30\]相比,AIGQA的性能相对较差。这自然也激发了我们对AIGQA充满希望的未来方向,即AIGQA可以利用ImageNet改善真实失真的性能。尽管AIGQA不能在Tab中的所有数据库上实现最佳性能。一世,AIGQA显示出更高的鲁棒性,并且在跨数据库评估中取得了显着改进,这可以在IV-D节中看到。
    
3.  与基于GAN的方法相比,H-IQA \[41\]在LIVE上具有更好的性能,在SROCC上约2.3%,在PLCC上约2.6%。AIGQA在CSIQ上取得了更好的成绩,在SROCC上增长了约4.7%,在PLCC上增长了4.6%。在TID2013上,H-IQA在SORCC上更好(约高0.9%),而AIGQA在PLCC上更好(约1.5%高)。
    

**表I**在五个基准IQA数据库上的性能比较

[![表一](https://ieeexplore.ieee.org/mediastore_new/IEEE/content/media/83/9263394/9376644/wu.t1-3064195-small.gif)

](https://ieeexplore.ieee.org/mediastore_new/IEEE/content/media/83/9263394/9376644/wu.t1-3064195-large.gif)

**表II**:TID2013个别失真的性能比较(SROCC)。每种方法获得最佳性能的次数(NoT)列在最后一行

[![表二](https://ieeexplore.ieee.org/mediastore_new/IEEE/content/media/83/9263394/9376644/wu.t2-3064195-small.gif)

](https://ieeexplore.ieee.org/mediastore_new/IEEE/content/media/83/9263394/9376644/wu.t2-3064195-large.gif)

接下来,我们还将评估在KADID-10k上提出的AIGQA,这是最近发布的最大的合成IQA数据库。标签。III列出了SROCC和PLCC结果。所有比较结果均取自\[66\]。我们可以看到,就SROCC和PLCC而言,AIGQA仍然达到了最佳性能。通常,AIGQA在所有数据库上均能很好地工作,从而验证了所提出方法的有效性。

**表III**在KADID-10K上的性能比较

[![表三](https://ieeexplore.ieee.org/mediastore_new/IEEE/content/media/83/9263394/9376644/wu.t3-3064195-small.gif)

](https://ieeexplore.ieee.org/mediastore_new/IEEE/content/media/83/9263394/9376644/wu.t3-3064195-large.gif)

### C.个别失真的性能比较

在本小节中比较了单个失真的性能,以研究AIGQA的稳定性。标签。II在TID2013中列出了有关单个失真的SROCC,并突出显示了最佳结果。AIGQA在24种失真类型中的14种上实现了最佳性能。特别是在#15(局部逐块失真)和#17(对比度变化)失真类型上,大多数以前的方法都无法预测与人类感知一致的图像质量。在AIGQA中,获得了不同的先验信息(即主要内容,失真图,结构退化图)以从多个方面衡量图像质量。受益于预测的主要内容和多方面的质量分析,AIGQA对其进行了重大改进。对于#3,#5,#8,#12,#24类型,AIGQA可获得与最佳方法几乎相同的性能。在其余5种类型上 除#14(非偏心模式噪声)外,AIGQA还具有竞争优势。可能是因为HVS对#14失真不敏感。因此,大多数BIQA方法都无法对#14失真类型的特征进行建模。

### D.跨数据库评估

在本节中,我们将比较AIGQA在跨数据库评估中的泛化能力。

在标签页中。IV和Tab。V,采用5种传统的BIQA方法和4种基于CNN的方法进行比较。具体来说,这5种传统BIQA方法的结果是由其作者发布的源代码复制的。这4种基于CNN的方法的结果来自其原始论文。

**表IV**在进行LIVE培训并在全套CSIQ,TID2013和LIVE-MD上进行测试时的性能比较(SROCC)

[![表四](https://ieeexplore.ieee.org/mediastore_new/IEEE/content/media/83/9263394/9376644/wu.t4-3064195-small.gif)

](https://ieeexplore.ieee.org/mediastore_new/IEEE/content/media/83/9263394/9376644/wu.t4-3064195-large.gif)

**表V**在TID2013上进行培训并在整套LIVE,CSIQ和LIVE-MD上进行测试时的性能比较(SROCC)

[![表五](https://ieeexplore.ieee.org/mediastore_new/IEEE/content/media/83/9263394/9376644/wu.t5-3064195-small.gif)

](https://ieeexplore.ieee.org/mediastore_new/IEEE/content/media/83/9263394/9376644/wu.t5-3064195-large.gif)

标签。IV列出了进行LIVE培训并在全套CSIQ,TID2013和LIVE-MD上进行测试时的SROCC结果。在CSIQ中,失真类型与LIVE中类似。大多数方法都可以实现良好的性能。例如,最新的BIQA方法DB-CNN \[30\]实现了0.758 SROCC。此外,AIGQA获得了更好的0.847 SROCC,与DB-CNN相比,提高了约12%。对于TID2013,它具有比LIVE更多的失真类型。测试它是一项艰巨的任务。AIGQA获得了明显的优势,并获得了0.698 SROCC,与DB-CNN相比,提高了约33%。LIVE-MD专注于复杂的乘法失真,AIGQA仍可达到0.833的SROCC,这与主观感知相对一致。

在标签页中。V,我们列出了在TID2013上进行培训并在其他数据库上进行测试时的结果。在LIVE上,建议的AIGQA实现了第二好的性能,几乎与最佳方法DB-CNN相同。除了LIVE之外,AIGQA在其他两个数据库上也达到了最高的SROCC。特别是在LIVE-MD上,AIGQA有了明显的改进。

为了与现有的基于深度学习的方法进行更公平的比较,我们使用与我们的方法相同的数据集和测试协议重现了一些BIQA方法的实验。标签。在TID2013上进行培训并在其他数据库上进行测试时,VI会列出SROCC。WaDIQaM \[26\],MEON \[29\]和Two-stream \[34\]根据其作者发布的源代码进行了重新实现。RAN4IQA \[45\]由我们自己的版本重新实现。从标签。六号我们可以看到,AIGQA在所有情况下均能达到最佳性能。此外,还进行了统计显着性检验,以检验两种方法之间的性能差异。在TID2013上进行训练并在CSIQ上进行测试时,每种方法的SROCC值都用作t检验的输入。选项卡中列出了t检验结果。七。“ 1 / -1 / 0”分别表示行中的模型与具有95%置信度的列中的模型相比,在统计上好于/差于/无法区分。从该表中,我们可以看到AIGQA在统计上比其他4种基于深度学习的方法要好。

**表VI**跨数据库评估的SROCC结果。所有方法均使用相同的数据集和测试协议作为拟议的AIGQA进行

[![表六](https://ieeexplore.ieee.org/mediastore_new/IEEE/content/media/83/9263394/9376644/wu.t6-3064195-small.gif)

](https://ieeexplore.ieee.org/mediastore_new/IEEE/content/media/83/9263394/9376644/wu.t6-3064195-large.gif)

**表VII**静态显着性测试结果

[![表七](https://ieeexplore.ieee.org/mediastore_new/IEEE/content/media/83/9263394/9376644/wu.t7-3064195-small.gif)

](https://ieeexplore.ieee.org/mediastore_new/IEEE/content/media/83/9263394/9376644/wu.t7-3064195-large.gif)

总而言之,一系列的跨数据库评估显示了所提出的IGM启发式方法的出色泛化能力。通过模拟IGM的主动推理过程并将多个信息集成在一起,AIGQA可以更好地利用IGM理论来测量图像质量。当处理新的失真类型或新的图像内容或更复杂的失真时,AIGQA具有更好的泛化能力。

### E.消融实验

在本小节中,我们将进行一系列的消融实验,以确定所提出方法的关键组成部分。在消融实验中,所有模型都在LIVE上进行了训练,并在整套TID2013上进行了测试。除指定说明外,所有实验设置均与上述相同。

我们首先通过更改质量评估器的输入来分析多方面质量分析的收益。实验结果列于表中。八。仅将失真图像作为质量评估器的输入的修改模型(即,删除了子网2,子网3和子网4)设置为基准网络(**BL**),其中效果不同没有明确分析图像质量方面。**BL** \+ **CD**模型将失真的图像和主要内容作为输入来明确衡量内容相关性的效果,与**BL**相比,SROCC的性能提高了约2.2%,PLCC的性能提高了3.6%。在**BL** +的基础上**CD**,**BL** \+ **CD** \+ **DD**模型另外还以失真图作为输入来同时测量内容相关性和失真相关性的效果,从而进一步提高了SROCC约5.0%的性能和PLCC约3.6%的性能。**BL** \+ **DD** \+ **SD**模型未将主要内容视为输入,仅达到0.644 SROCC和0.693 PLCC。我们建议的AIGQA(即**BL** \+ **CD** \+ **DD** \+ **SD**)通过将内容相关性,失真相关性和降级相关性的影响整合在一起来测量图像质量,并获得最高的性能,大约为0.698 SROCC和0.728 PLCC。

**表VIII**关于多方面质量分析的消融实验

[![Table VIII](https://ieeexplore.ieee.org/mediastore_new/IEEE/content/media/83/9263394/9376644/wu.t8-3064195-small.gif)

](https://ieeexplore.ieee.org/mediastore_new/IEEE/content/media/83/9263394/9376644/wu.t8-3064195-large.gif)

然后,我们分析了两个受IGM启发的约束对BIQA性能的影响。实验结果列在选项卡中。九。在**没有SS + SD的AIGQA**中,两个约束均被删除,并且在SROCC和PLCC上获得的效果最差。将语义相似性(或结构不相似性)约束添加到目标函数后,模型**AIGQA w / o SD**(或**AIGQA w / o SS**)可获得更好的性能。并且当同时考虑这两个约束时,建议的AIGQA可以达到最佳效果。

**表IX**关于IGM启发式约束的消融实验

[![Table IX](https://ieeexplore.ieee.org/mediastore_new/IEEE/content/media/83/9263394/9376644/wu.t9-3064195-small.gif)

](https://ieeexplore.ieee.org/mediastore_new/IEEE/content/media/83/9263394/9376644/wu.t9-3064195-large.gif)

此外,为了更全面地分析两个受IGM启发的约束的影响,直接比较了不同模型在真实样本上获得的语义相似性(即[等式7](https://ieeexplore.ieee.org/abstract/document/#deqn7))和结构不相似性(即[等式11](https://ieeexplore.ieee.org/abstract/document/#deqn11))。以图5(e)为例(即,作为主动推理模块的输入失真图像)。对于**AIGQA**,日志\[ -\[R小号Ë中号一个Ñ吨我Ç小号(一世G,一世d) \] 等于9.531, \[Rš吨ř ü Ç吨ù ř Ë(一世G,一世ü) 等于0.137。对于**不带SS** \+ **SD的****AGQA**,日志\[ -\[R小号Ë中号一个Ñ吨我Ç小号(一世G,一世d) \] 等于10.852, \[Rš吨ř ü Ç吨ù ř Ë(一世G,一世ü) 等于0.156。**AIGQA**实现了更高的语义一致性和更低的结构相似性,这证明了两个受IGM启发的约束条件可以有效地赋予基于GAN的主动推理模块IGM的特性。

From the above series of ablation experiments, we can make some insightful conclusions. First, multifaceted quality analysis can effectively improve the accuracy and generalization of the proposed method. By integrating the multiple information as input, the proposed multi-stream quality evaluator could better leverage the characteristics of IGM for BIQA. Second, the predicted primary content also affects the performance of quality prediction. Because it determines the validity of the multiple prior information. Benefiting from the IGM-inspired constraints, the proposed active inference module is effective to predict the primary content of a distorted image and consequently improves the BIQA performance.

### F. Visualization of the Prior Information

In this section, we will present some samples about the prior information obtained from the active inference module (i.e., the multi-stream inputs to the quality evaluator) to get an intuition of the proposed method.

In Fig. 5, the first column is the white Gaussian noise (WN) distorted images at different distortion levels, from the second column to the last column are the corresponding primary content, distortion map (i.e., prediction error) and structural degradation map (i.e., structure similarity map). Since WN belongs to additive noise, it has little effect on the main semantics. IGM is effective to avoid the noise and infer the primary content with high quality, as show in Fig. 5(b) and (f). Meanwhile, as can be seen from Fig. 5(c) and (g), most noise is filtered into the distortion map, which will cause uncomfortable perception. Besides, as show in Fig. 5(d) and (h), when distorted by different levels of WN, the structural degradation map has diverse patterns. Specifically, Fig. 5(a) and (b) have higher structure similarity, which means a lower content degradation in Fig. 5(a).

In Fig. 6, the primary content of a Gaussian blur (GB) distorted image is presented. GB will destroy the image content, such as blurring the edge or contour, and result in the loss of effective information. It’s hard to infer the pristine content to give the perfect explanation for a severely GB distorted image, i.e., the primary content may still contain degraded information. For example, in the primary content (i.e., Fig. 6(c)) of Fig. 6(b), we still can’t recognize the text message on the fuselage of the plane. While in the reference image Fig. 6(a), the text message is clear.

From Fig. 5 and Fig. 6, we can draw the following conclusions. First, for different distortion types, the predicted primary content is consistent with the properties of IGM, which verifies the effectiveness of the proposed GAN in simulating the active inference process of IGM. Second, for different distorted images, their corresponding primary content, distortion map and structural degradation map show different characteristics. It’s helpful to model the effects of the content-dependency, the distortion-dependency and the degradation-dependency together to evaluate the image quality.

SECTION V.

Conclusion
----------

在本文中,受IGM的启发,我们提出了一种新颖的,受IGM启发的BIQA模型,用于图像质量预测。受益于两个提议的IGM启发式约束,基于GAN的主动推理模块可有效地模拟IGM理论,以预测失真图像的主要内容。通过整合从主要内容中获得的多种信息,多流质量评估器可以有效地利用IGM的BIQA属性。一系列实验证明了该方法的有效性和优越性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>