论文精读（保姆级解析）—— Assessing Face Image Quality: A Large-Scale Database and a Transformer Method

I松风水月

已于 2024-07-16 23:42:56 修改

阅读量1.1k

点赞数 25

分类专栏：论文阅读文章标签： transformer 深度学习

于 2024-07-16 23:39:24 首次发布

本文链接：https://blog.csdn.net/qq_38683460/article/details/140458344

版权

论文阅读专栏收录该内容

6 篇文章 0 订阅

订阅专栏

0 前言

该论文发表在2024年计算机视觉顶刊TPAMI上，主要针对面部失真提出了一个大规模数据集核质量评估方法，下面给出论文和项目链接：

1 摘要

在过去十年，面部图像经历了爆炸性的增长。然而，图像在传输或者存储的过程中会存在一些损失，从而影响图像的质量。为了解决这个问题，本文提出了一种基于Transformer的人像面部质量评估方法（TransFQA）。具体而言，首先建立了一个大规模人像面部评估数据集（FIQA），该数据集包含42125张不同失真类型的人像面部数据。通过广泛的众包研究，总共获得了712808个主观评价分数，这对评估面部图像具有非常大的帮助。进一步地，通过调研我们的数据集，我们全面地分析了不同失真类型和面部组件对图像整体质量的影响。于是，我们提出了一个TransFQA方法。具体而言，首先设计了FC引导的FT-Net，通过一种新的渐进式注意力机制来整合全局背景、人脸区域和面部组件细节特征。然后，设计了一个特定的失真预测网络(DP-Net)，对不同的失真进行加权，并准确预测最终的质量分数。最后进行了一系列实验证明了该方法的优越性并达到了SOTA效果。

2 引言

在过去的几十年中，面部图像和视频（如vlog等）经历了爆炸性增长，导致数据量也大幅增加。但是，鉴于带宽和存储资源有限，图像压缩对于减少数据量至关重要。然而，图像压缩不可避免地会导致图像出质量降低，如块状效应、噪声和模糊伪影，这种失真的图像显著影响了用户端体验质量（QoE）。因此，研究面部图像质量对于人类感知的影响是迫切需要的，这是图像质量评估（IQA）的核心。此外，通过评估的视觉质量，可以在压缩和传输过程中防止面部图像的不良降质；质量增强也可以用于减轻面部图像上的严重失真。

近年来，从实用性或保真度的角度评估面部图像的视觉质量的研究日益增加。具体而言，实用性相关的IQA方法能够自动衡量面部图像在面部识别中的实用性。例如，Abaza等人提出通过测量对比度、亮度、焦点和照明等IQA因素来预测面部图像的实用性。Phillips等人提出了一个贪婪修剪排序（GPO）预言机，作为面部识别性能提升的估计上限。他们比较了13种质量测量方法与这个预言机在识别性能方面的表现。在Hernandez-Ortega等人的研究中，他们首先通过计算目标图像与同一主体中质量最高的图像之间的欧氏距离生成了真实标签。然后，他们使用这些真实标签来微调面部识别网络以进行实用性预测。最近，Ou等人提出了一种无监督方法，考虑类内和类间相似性分布距离来预测面部图像的实用性。尽管有大量关于实用性相关IQA的工作，但很少有关于保真度相关IQA的研究。更重要的是，这些方法通过简单地应用为通用图像开发的IQA方法来评估面部图像质量，从而忽略了面部的特定先验知识。此外，现有方法无法处理面部图像上的不同类型失真，这在实际中很常见。为了解决上述现有工作的不足，本文提出了一种新颖的面部图像IQA方法。
在本文中，首先建立了一个大规模的面部图像质量评估数据库（称为FIQA数据库），这对基于学习的面部图像IQA方法贡献巨大。更具体地说，FIQA数据库包含总共42,125张面部图像，其中625张是参考面部图像。数据库中的面部图像展示了多样化的属性，包括各种表情、不同年龄和背景，从而确保内容的多样性。此外，数据库包含丰富的失真，包括7种类型的单一失真、3个代表性恢复任务相关的失真，以及4种代表性混合失真和现实世界失真。此外，进行了广泛的主观质量评估研究，以获得真实的质量评分。总共有1,432名受试者参与了众包研究，获得了712,808个主观评分。然后进行了严格的数据处理程序，以确保数据库的可靠性。因此，对于每张面部图像，至少获得了15个可靠的主观评分。基于已建立的FIQA数据库，全面分析了失真类型和面部组件（FCs）对图像质量的影响。作者发现，人类对不同失真类型的敏感性和感知结果不同。此外，面部图像的主观质量与其面部组件的质量比非面部区域（NFRs）的质量更相关。
流行的通用图像和面部图像质量（包括实用性和保真度）数据库的总结与比较

受自己的发现启发，作者提出了一种基于Transformer的面部图像质量评估方法（称为TransFQA）。TransFQA方法是面部特定Transformer用于质量评估的开创性工作。TransFQA方法由4个主要网络组成，即解析和干网络（PS-Net）、判别性FC嵌入网络（DF-Net）、FC引导的Transformer网络（FT-Net）和特定失真预测网络（DP-Net）。更具体地说，PS-Net提取空间特征并预测面部掩模，这提升了面部图像质量评估的性能。在PS-Net之后，DF-Net结合PS-Net的面部掩模生成判别性FC嵌入以用于后续的FT-Net。然后，提出的FT-Net将全局上下文和面部区域（FR）融合为新设计的Transformer的键和值。同时，FT-Net结合FC详细特征作为查询，最终以一种新颖的渐进方式获得增强的质量特征。同时，FT-Net预测一个失真向量，该向量表示当前失真图像的每种失真类型的概率。最后，提出DP-Net利用失真向量实现特定失真的质量预测。

作者的工作是首次尝试建模FC质量依赖性并处理不同类型的失真以评估面部图像质量，这可能为未来对失真面部图像的研究铺平道路。作者方法的主要贡献有三点：

建立了一个大规模的面部图像IQA数据库，其中包含42,125张具有不同失真类型丰富内容的面部图像，每张面部图像的质量由至少15名受试者评分。FIQA数据库在线提供：https://github.com/stayhungry1/FIQA。
全面分析了人类对各种失真类型的敏感性和感知差异，并进一步调查了不同FCs对图像质量的影响。
提出了TransFQA方法，其中使用注意力机制捕捉不同FCs之间的质量依赖性，并自适应融合多种特定失真的预测器，以评估具有不同失真类型的面部图像的IQA。

3 FIQA 数据库

3.1 特点

大规模，全面，真实，多样性能

3.2 内容和失真类型

关于数据集介绍部分进行简答介绍，有兴趣的可以去看下原文。4种失真类型，单失真人脸图像(FIQA-S)，恢复人脸图像(FIQA-R)，多重失真图像(FIQA-M)，以及真实世界图像(FIQA-W)。数据来源于Flickr和Karras等。选择标准：高质量，只有一个人脸，各种角度的面部，全部 $1024\times1024$ 分辨率。
每种畸变类型的畸变图像数量列于下表。畸变人脸图像的示例如下图所示。从图中可以看出，FIQA数据库中人脸图像的主观质量随着不同类型的失真而有所不同。
在这里插入图片描述

在这里插入图片描述

3.3 主观评价和验证

实验开发了一个网站，供参与者在线评分失真图像的质量。参与者被指导根据失真程度评分，而不是面部美学质量，并且实验确保了观看环境的一致性。图像在原始分辨率下通过Firefox或Chrome浏览器查看。
实验的质量评分程序分为训练和测试两个阶段。训练阶段让参与者熟悉不同类型和质量的失真图像，测试阶段则要求他们对失真图像进行质量评分。采用了DCR双刺激法和ACR五级评分标准，确保实验环境和评分的一致性。最终，实验收集了大量有效评分，并移除了不可靠的数据，确保了结果的可靠性。

3.4 主观评分验证

FIQA数据库包含了广泛的主观评分范围，从1到5，涵盖了不同质量水平的图像。不同退化级别的主观评分清晰分离，并随着退化级别增加而降低，表明评分能够准确反映退化程度。FIQA数据库的组内相关系数（ICC）为0.60，显示其主观评分具有高可靠性，与其他数据库相当甚至更高。这些结果验证了FIQA数据库在面部图像质量评估任务中的有效性。

4. 数据分析

FIQA数据库涵盖了基本和复杂失真，研究了这些失真对图像质量的影响，并探讨了特征分量对主观质量的重要性，这为后续的架构设计提供了基础。具体内容请参考原文，这里做重点介绍，有兴趣的可以直接看原文。

4 方法

在这里插入图片描述
如上图所示，作者提出了TransFQA，总共包含四个网络子结构：PS-Net、DF-Net、FT-Net和DP-Net。其中，PS-Net用于预测面部掩模并提取空间特征，这些特征在DF-Net中被整合成判别性FC嵌入。FT-Net然后通过渐进注意力机制预测失真向量，并生成增强的面部区域-面部组件质量特征。最后，DP-Net被设计用于加权不同失真类型，从而准确预测面部图像的质量分数。
具体而言，首先将面部图像I输入到PS-Net中，其中面部先验模块预测 $N_f$ 个面部掩码 ${\hat{M}_{i=1}^{N_f}}$ ，主干 CNN 从面部图像中提取空间特征 $F^{S}$ ，随后，DF-Net融合 $F^{S}$ 和 $N_f$ 个面部掩码形成判别FC标记嵌入 $F^{E}$ 。紧随 DF-Net 之后，FT-Net 基本上建立了一个新的 Transformer 架构，该架构以渐进的方式显式集成了物理信息，即全局上下文、FR 和 FC 的详细特征，用于面部图像质量评估（IQA）。更进一步，对于全局线索，空间特征 $F^{S}$ 被送入IQA模块去获得全面的全局上下文特征 $P_{lg}^{\prime}$ 和失真向量 $x^{\prime}$ 。与此同时，学习局部线索，嵌入的 $F^{E}$ 被喂到IFC查询模块去捕获长距离的内部和外部FC之关系，从而全面的提高面部质量评估性能。结果，可以获得FC的细节特征 $U_{Li}$ 。随后，给定FR映射MR。增强的FR编码模块通过渐进注意力机制集成 $F^{E}$ ， $U_{Li}$ 和 $\hat{M}^{R}$ ，获得增强的FR-FC特征 $D_{Le}$ 。最后，失真向量 ${\hat{x}}$ 和质量特征 $D_{Le}$ 被输入到DP-Net中，自适应地融合多种特定失真预测器，以产生面部图像的总体质量评分 $s^{\prime}$ 。下面详细介绍四个网络结构。

4.1 PS-Net（解析和主干网络）

人像的面部组件质量比非面部组件质量更重要，于是作者提出了PS-Net去预测面部掩码，该面部掩码可以用于面部质量评估。PS-Net主要由两部分组成（如网络模型图所示），面部先验模块和CNN骨干组成。其中，面部先验模块由堆叠式先验模块组成，经过一系列的上采样，下采样，残差结构等操作，最终获得预测掩码 $\hat{I}^{M}$ ，最终总结出 $N_f$ 个掩码 ${\hat{M_i}_{i=1}^{N_{f}}}$ 。CNN骨干网络用于提取面部信息的空间特征，组成部分是ResNet的前三层，最终获得空间特征 $F^{S}$ 。

4.2 （判别FC嵌入网络）

面部主观质量评价依赖于不同的面部组件，于是作者设计了一个DF-Net网络去融合 $N_f$ 个面部掩码，通过该掩码为FT-Net生成一系列的判别FC嵌入。具体而言，DF-Net由每个FC特征嵌入(PFFE)模块组成，如下图所示：
在这里插入图片描述
给定第i个FC的预测掩模 $m_i$ 和空间特征FS，可通过如下公式生成判别性的质量特征：

$F_{i}^{D} = Conv(\hat{M_i}\odot F^S + F^S)$

其中 $C o n v$ 表示共享卷积层。通过该操作，最终可以产生一系列的FC特征 ${{F_i}^{D}}_{i=1}^{N_f} \in R^{C \times N_f \times H \times W}$ 。接下来，将FC特征均匀划分为管状令牌，划分的间隔分别为Nt、Ht和Wt，对应于FC特征的维度、高度和宽度。这一划分过程可以表示为：

在这里插入图片描述
其中 $N_f^{\prime}，H^{\prime}，W^{\prime}$ ，表示每个维度中管状令牌的数量。将这些管状令牌重塑，然后采用线性层减少它们的维度，生成令牌嵌入 $F_E \in R^{C^{\prime} \times N_f^{\prime} \times (H^{\prime} W^{\prime})}$ ，通过下面的公式进行简化标记：
$F_E = Lin(Pat({F_i^D}_{i=1}^{N_f}))$

其中， $P a t (\cdot)$ 和 $L in (\cdot)$ 分别对应管分区和线性层的操作。

4.3 FT-Net（面部组件引导的Transformer网络）

不同的面部扭曲类型对人的感知有不同程度的影响。在FT-Net中提出了一个全局IQA模块，以预测表示每种失真类型概率的失真向量。作者提到，失真向量可用于帮助后面DP-Net中的质量预测。同时，全局IQA模块能够从人脸图像中提取全局上下文特征。另一方面，作者在FT-Net中设计了IFC查询模块。该模块采用两种注意机制来学习FC细节特征，用于评估人脸图像的质量。在这2个模块的基础上，开发了增强的FR编码器模块，逐步整合全局上下文、FR和FC细节特征，以实现人脸IQA从粗到精的关注。

4.3.1 Global IQA Module（全局IQA模块）

在这里插入图片描述

4.3.2 IFC Query Module（IFC查询模块）

在这里插入图片描述

4.4 DP-Net（特定失真预测网络）

人类对不同失真类型具有不同的灵敏度和感知结，于是作者设计了DP-Net来利用失真向量来实现特定失真的质量预测。最近，许多研究都试图估计失真信息并将其纳入IQA任务[64]，[65]。一般来说，这些作品利用固定的网络和2个流进行多任务学习。然而，固定网络对图像失真空间建模的表示能力有限，无法灵活处理不同失真类型的图像。为了解决这个问题，给定失真向量 $x$ ，作者在DP-Net中提出了失真特定质量评估(DSQA)模块，以自适应融合多个失真特定预测器进行质量预测。

实验

数据集：FIQA
训练平台：3090
评估指标：PLCC，SROCC，KROCC，RMSE，MAE

5 性能

5.1 定量比较

在这里插入图片描述

5.1 定性比较

在这里插入图片描述

总结展望

在本文中，作者提出了TransFQA方法用于面部图像质量评估。首先，建立了迄今为止用于评估面部图像质量的最大数据库，其中包括42,125张不同失真类型的面部图像，每张图像的质量评分由至少15名受试者评定。接下来，全面分析了失真类型和面部组件（FCs）对整体图像质量的影响。在研究结果的启发下，提出了一种基于Transformer的新方法，包括4个主要网络，用于预测面部图像的主观质量。特别地，FT-Net旨在通过新提出的渐进注意力机制整合全局上下文、面部区域（FR）和FC详细特征。此外，DP-Net被设计用于加权不同类型的失真并评估最终的质量得分。广泛的实验结果表明，TransFQA方法在面部图像质量评估方面显著优于其他现有的方法。

未来，探索弱监督或无监督方法用于评估面部图像质量具有很大的研究价值。TransFQA方法可能通过少样本学习范式得到进一步的提升。同时，建立一个包含更多失真类型的面部图像质量评估更大型数据库是很有前景的。此外，TransFQA方法的潜在应用，例如受感知启发的视频编码，也是未来值得探索的方向。

以上就是对本篇论文的解读，如有任何问题欢迎留言，批评指正！

I松风水月

关注

25
点赞
踩
19

收藏

觉得还不错? 一键收藏
打赏
0
评论
论文精读（保姆级解析）—— Assessing Face Image Quality: A Large-Scale Database and a Transformer Method

论文精读（保姆级解析）—— Assessing Face Image Quality: A Large-Scale Database and a Transformer Method
复制链接

扫一扫