周报(0213-0219)

论文介绍了几种深度学习在人脸识别领域的最新进展,包括边界感知的人脸对齐算法,通过利用面部边缘信息提高关键点检测的准确性;遮挡鲁棒人脸识别方法,通过学习掩模来处理部分遮挡人脸的识别;注意特征对关系网络,通过相关特征对的关系提取提高识别精度;以及组件注意力引导的超分辨率网络,用于恢复低分辨率人脸图像的细节。这些方法都在各自的实验中展示了优于现有技术的性能。
摘要由CSDN通过智能技术生成

目录

论文:《Look at Boundary: A Boundary-Aware Face Alignment Algorithm》

一、介绍

研究存在的问题:

解决方法:

边缘感知人脸对齐算法:

二、边界感知人脸对齐

2、1 边界感知的地标回归器

2、2 边界热图估计器

2、3 边界有效性判别器

三、实验

实验数据

评价指标

3、1 与现有其他方法比较

四、小结

论文:《Occlusion Robust Face Recognition Based on Mask Learning With Pairwise Differential Siamese Network》

一、简介

背景

解决方案

二、实现方法

2、1 Learning Mask Generators

2、2 构建掩码字典

​编辑2、3 Occlusion Robust Recognition

三、实验

3、1 实验细节

3、2 实验结果

四、小结

论文:《Attentional Feature-Pair Relation Networks for Accurate Face Recognition》

一、简介

二、具体实现

2、1 面部特征编码网络

 2、2 面部局部特征表示

2、3 注意特征对关系网络(AFRN)

2、4 配对选择和注意力分配

 三、实验

 3、1 数据集预处理

3、2 实验细节

 3、3 与最先进方法的比较

四、小结

论文:《Component Attention Guided Face Super-Resolution Network: CAGFace》

一、简介

1、1 背景

1、2 解决方案

二、CAGFace

2、1 网络组件

2、2 超分辨率阶段

2、3 损失函数

三、实验

3、1 与其他先进方法比较

四、小结 


论文:《Look at Boundary: A Boundary-Aware Face Alignment Algorithm》

        提出了一种新的边界感知人脸对齐算法,将人脸边缘线所描述的结构信息融入到关键点检测以帮助人脸地标定位,极大地提升了算法在大侧脸、夸张表情、遮挡、模糊等极端情况下的检测精度。这篇文章探讨并回答了以下三个问题:1、为什么使用边界?2、 如何使用边界?3、边界估计和地标定位之间的关系是什么?文章的边界感知人脸对齐算法在300-W Fullet数据集上实现了3.49%的平均误差,大大优于最先进的方法。

一、介绍

研究存在的问题:

  • 人脸关键点在各个数据集间歧义性,定义不一致问题。
  • 人脸关键点的定义标注不一致,在复杂情况(遮挡,大的头部姿势下等),准确的标注人脸关键点比较困难。
  • 复杂情况下关键点检测精度问题。

解决方法:

  • 对于第一、二个问题,利用定义良好的人脸边缘作为人脸几何结构来辅助人脸关键点定位,采用13条边界线来表示人脸结构。每个面部边界线可以从多个数据集的足够数量的面部标志进行插值,使得不同数据集即使存在关键点差异,仍然可以相互辅助训练。
  • 对于第三个问题,作者首先通过消息传递结合对抗学习得到高精度的边缘线检测结果,再将边缘线信息多语义层次地融合到关键点检测中,使得算法在复杂情况下的鲁棒性大幅提升。

边缘感知人脸对齐算法:

1.1 估计面部边界热图;

1.2 利用边界热图对人脸关键点进行回归。

二、边界感知人脸对齐

图2.1 边界感知人脸对齐框架

(a)边界热图估计器,采用基于沙漏网络的边界热图估计器,用于估计边缘热图;

(b)边界感知地标回归器,用于生成最终的地标预测。 引入边缘热图融合方案,将边缘信息纳入回归问题的特征学习中;

(c)边界有效性判别器,用于区分“真实”边界热图和“虚假”边界热图,进一步提高估计边界热图的质量。


沙漏网络:网络结构形似沙漏,它使用模块进行网络设计,先降采样,再升采样的全卷积结构,使得网络可以获取多尺度信息从而取得了不错的精确度。


2、1 边界感知的地标回归器

        为了将边界线融合到特征学习中,作者将地标转换为边界热图来辅助特征学习,边界热图中每个像素的响应由其到相应边界线的距离决定。边界热图的定义如下:

        以上公式含义:设人脸图像为I,用L表示ground truth,如S=\left \{ s_{l} \right \}_{l=1}^{L}。定义K个子集 S_{i} \subset S,表示左上眼睑、鼻梁等属于K个边界的地标。对于每个边界,S_{i}是插值得到一个密集的边界线。然后将边界线上的点设为1,其余点设为0,形成与I大小相同的二进位边界特征图B_{i}。最后对每个B_{i}进行距离变换,得到距离图D_{i}。我们使用带有标准差\sigma的高斯表达式将距离图转换为真实边界热图M_{i}。设3\sigmaD_{i}的阈值,能更好保证边界热力图在边界区域。在实际应用中,为了提高计算效率,ground-truth边界热图边的长度被设置为I的四分之一。

 

面部13条边界线:外轮廓、左眉、右眉、鼻梁、鼻边界、左上眼皮、左下眼皮、右上眼皮、右下眼皮、上嘴唇上边、上嘴唇下边、下嘴唇上边、下嘴唇下边。

        为了更好地利用丰富的边界热力图信息,我们采用多级边界热力图信息融合机制,包含1次输入图像融合(Input Image Fusion),3次特征图融合(Feature Map Fusion)。

 Input Image Fusion

        该融合的目的是强化边界文理信息,弱化背景及弱文理区域信息,公式如下:

其中⊗表示按元素的点积运算,而⊕表示按通道的串联。

 Feature Map Fusion

         与图像融合类似,边界特征热图M,通道数固定,即边界线个数13,特征图F,融合特征图H表示如下:

 

点积运算时,要求通道数相同,利用T变换来完成这个工作,如下图所示:

        边界热图的质量是影响预测精度的关键。采用边界热力图信息融合基础上,文章的方法在300-W数据集的测试中可以达到76.26%的AUC,而现有的结果为54.85%。

2、2 边界热图估计器

        作者使用堆叠沙漏作为边界热图估计器的基线,均方误差(MSE)优化边界热力图。但是当发生严重遮挡时,生成的热图总是存在噪声和多模态响应。为了解决这个问题,作者采用对抗性学习和信息传递,提高了生成边界的可靠性,如下图所示:

为了缓解遮挡所带来的问题,我们引入消息传递层来在边界之间传递信息,如下图:

信息传递机制: 

(1)Intra-level mes-sage passing:在每个沙漏网络最后,插入MPL模块,在不同边界线之间进行通信;

(2)Inter-level message passing: 在相邻两个沙漏网络间,采用从低到高的相同边界线通信。

2、3 边界有效性判别器

        在结构边界热图估计中,采用均方误差(MSE)作为损失函数。然而,最小化MSE有时会使预测看起来模糊和不可信。当产生不好的边界热图时,会破坏回归网络的学习。如果有助于生成准确的地标坐标,边界热图则具有良好的质量。在此基础上,作者提出了一种基于标记的边界有效性判别器来判断生成的边界热图的有效性。则可设生成的边界热图为\hat{M},将其对应生成的地标坐标集设为\hat{S},ground-truth距离矩阵图表示为Dist,设边界有效判别器D来区分生成的边界热图的有效性,判断生成的边界热图是否为假的判别定义如下,设为d_{fake}

其中\theta是距离阈值,\delta是概率阈值。公式的含义即为距离边缘的距离响应小于\theta的概率且小于\delta,就判断生成的热图质量不好。

三、实验

实验数据

        实验使用四个数据集进行比对:300-W、COFW、AFLW、WFLW。

评价指标

        实验使用标准归一化标志平均误差和累积误差分布(CED)曲线评估算法。

3、1 与现有其他方法比较

3、1、1 在300-W数据集上

        由上图可知,本文的方法远远优于其他先进的方法,证明了边界信息的有效性,如果较好地捕获边界信息,性能上有很大的提升潜力。

 3、1、2 在WFLW数据集上

        WFLW数据集中存在许多表情、姿势和遮挡等不同的特殊人脸面部图像,可以简单地评估算法对面部姿态、遮挡和表情的鲁棒性,效果如下图所示:

3、1、3 COFW和AFLW的跨数据集评估 

        上图是本文算法与其他先进方法在COFW数据集上的CED曲线,论文模型比以前的结果有很大的优势。它的平均误差为4.62%,故障率为2.17%。故障率显著降低了3.75%,这表明作者的方法处理遮挡的鲁棒性很好。

        上图是作者为了验证论文方法对处理跨数据集人脸对齐的能力的比较结果。可以看出不使用边界信息和使用边界信息有明显的提高。由于COFW数据集中含盖了不同程度的遮挡,而AFLW数据集具有显著的视野变化和挑战性的形状变化,以上的实验结果强调了边界信息对遮挡、姿态和形状变化的鲁棒性。

四、小结

        在本文中,作者提出了一种新颖的使用面部边界来派生面部标志。作者提出,独特的面部结构的推理是定位面部标志的关键,因为人脸不包括歧义。通过估计面部边界,论文的方法能够处理任意的头部姿态以及大的形状、外观和遮挡变化,展示了面部边界建模的巨大潜力。

论文:《Occlusion Robust Face Recognition Based on Mask Learning With Pairwise Differential Siamese Network》

        深度卷积网络作为人脸识别领域的前沿技术,存在识别模型在有部分遮挡的人脸场景效果不佳的情况。论文根据人的视觉系统注意力机制(会自动忽略被遮挡的部分的性质),提出一种掩模学习策略,来处理人脸识别中特征损失的情况。

一、简介

背景

        现有的人脸识别模型对有遮挡的人脸图像识别效果差,这些模型在姿态、面部表情、光照、遮挡情况下仍未达到完美的鲁棒性,而遮挡对模型的影响是当前最需关注的方向。

解决方案

        作者受人类视觉系统会隐式地忽略遮挡部分,集中于非遮挡部分内容的启发,提出:丢弃被遮挡破坏的特征元素。所以本文的核心问题是:给定一张随机局部遮挡的人脸图像,如何定位出受遮挡内容影响的特征?论文的主要工作就是找到这些受遮挡的特征元素并将对应的响应去除掉,避免影响识别效果。

  • 为了学习出图像遮挡区域与被破坏的特征元素之间的对应关系,作者提出一种新的成对微分连体网络(PDSN)结构,该网络包含一个掩模生成器Mask Generators。
  • 用PSDN学习出的掩模组成一个Mask Dictionary(掩码字典),包含了不同遮挡位置对应的Mask。利用该字典生成每张测试图像对应的Feature Discarding Mask(FDM),用来消除受遮挡部分影响的图像特征。

二、实现方法

图2.1 整体算法框架 

算法实现大致步骤:

1、提出PSDN,使用PDSN学习Mask Generator,获取人脸块和特征间的对应关系;

2、根据人脸遮挡区域与未遮挡情况下的对应关系建立FDM;

3、测试时,根据人脸图像的被遮挡区域,从Mask Dictionary中选取与之对应的FDM与人脸特征进行相乘操作以消除被遮挡区域对识别的影响。

2、1 Learning Mask Generators

图2.2 PDSN网络框架 

        成对微分连体网络(PDSN)框架如图2.2,它由主干CNN和掩码生成器的分支组成。主干CNN网络用于提取人脸图像的特征,对于遮挡和未遮挡的人脸图像使用的是同一个CNN。PDSN中的Mask Generator模块M_{\theta }将会输出一个掩码,取值范围在[0,1]之间,用于和原始特征进行逐点相乘,式子为:\tilde{f}(x_{j}^{i}) = M_{\theta }(\cdot )f(x_{j}^{i})f(\cdot )表示最后一个卷积层的特征,x_{j}^{i}表示第i对人脸图像中存在遮挡的人脸图像。两张人脸图像隶属于同一人y^{i},唯一的区别在于某一个图像的人脸块b_{j}被遮挡了。

PSDN的损失函数:

(1)通过最小化两个损失的组合来学习M_{\theta }

        式子第一部分l_{cls}用于评估每个特征元素对识别的重要性,第二部分l_{diff}衡量遮挡前后每一项特征的变化情况。

(2)分类损失l_{cls},遮挡后的人脸应该被中继CNN的分类器正确分类:

        \tilde{f}(x_{j}^{i})是进行掩模运算后的存在局部遮挡的人脸的特征,F骨干CNN中最后一个卷积层后的全连接层,它也可以是平均池化层。 

(3)对比损失l_{diff}

       

        差分输入信号作为一种注意机制,它鼓励掩模生成器关注那些由于部分遮挡而偏离其真实值的特征元素。因此,Mask Generator以遮挡和未遮挡人脸对的最后一个卷积层的特征差的绝对值为输入。

(4)分类损失和特征差值损失结合,本文PSDN网络的总目标函数为:

         为了使目标函数的不同分量具有相同的尺度,我们将\lambda设置为10。

2、2 构建掩码字典

         在第二阶段,作者从每个训练好的掩码生成器M_{\theta }中提取一个固定的掩码,并相应地建立一个字典。

        对于掩码生成器M_{\theta },首先输入大量的人脸图像对,其中一张人脸是未遮挡的真实人脸,另一种人脸是b_{j}块被遮挡了的人脸图像,得到一个m_{j}^{1}m_{j}^{2}m_{j}^{P},其中P(在实验中约为200k)为人脸对的数目。如何对每个m_{j}^{i}进行Min-Max归一化,求m_{j}^{i}的平均值得到\bar{m_{j}}。当第j个块被遮挡时,可以直接使用这个\bar{m_{j}}作为FDM(称为软权重模式)。但它所对应的特征已经完全丢失了,因此需要对\bar{m_{j}}进行二值化处理,也就是设置\bar{m_{j}}中被遮挡区域所对应的位置处为0。具体的做法是设置\bar{m_{j}}中最小的\tau * K个值为0,其余为1,K=C\times W\times H\tau是一个超参数,公式如下:


2、3 Occlusion Robust Recognition

        使用以上构建的掩码字典,可以通过组合相关的字典项来获得具有任意部分遮挡的人脸的Feature Discarding Mask(FDM)。在测试时,如果某个网格和遮挡区域之间的IOU大于0.5,则表示该网格被遮当了。如下图2.3,图中戴墨镜的人脸图像第12、13、14的网格被遮挡了,那么遮挡情况的FDM为M=M_{12}\wedge M_{13}\wedge M_{14}\wedge就是表示逻辑与操作。 将掩模M和图像特征进行逐点相乘操作,可以得到被遮挡的人脸的特征。

图2.3 被遮挡人脸图像

三、实验

3、1 实验细节

数据预处理:使用MTCNN数据集,在进行相似度变换后,得到对齐后的人脸图像,并将其大小调整为112 × 96像素。

遮挡检测:训练了一个FCN-8s分割网络来检测遮挡位置,遮挡检测模型在合成遮挡Facescrub数据集上的平均IU为98.51,效果非常好。

网络结构:论文使用ArcFace中提出的改进的ResNet-50模型作为主干CNN模型。掩码生成器为convc-prelu-bn结构,使用sigmoid函数将输出映射为[0,1]。

训练:1、在CASIA-WebFace数据集上训练主干CNN;2、确定中继CNN的模型参数,训练掩码生成器模块;3、建立掩模字典后,生成具有随机遮挡的人脸图像并获取其FDM。

测试:在测试阶段,通过两个人脸图像的fc层特征的余弦距离计算相似度得分。采用最近邻分类器和阈值法分别进行人脸识别和验证,人脸识别任务是求测试人脸图像在特征集中的最近邻,人脸验证任务是两幅图像的特征相似度和阈值相比较。

3、2 实验结果

在LFW上的测试结果

        

        由于LFW数据集中大部分人脸图像没有被遮挡,基线模型在经过训练以获得对部分遮挡更强的鲁棒性时,实际上使原始主干CNN的精度降低了0.52%。作者的方法可以保持主干CNN的性能,因为论文的设计原则只是在部分遮挡条件下丢弃那些损坏的特征元素进行比较,而不是强迫主干CNN专门适应部分遮挡。

在MegaFace Challenge1上的测试结果 

         作者使用Facescrub数据集作为探测集,上表中的MF1occ是合成遮挡的Facescrub数据集。可以看出在含有遮挡人脸图像的数据集中,相比于原始Facescrub数据集,基线模型的检测精度有所下降,而作者提出的方法在MF1occ数据集上具有更好的性能。

在AR Dataset上的测试结果

         由表可知,在使用佩戴了太阳镜或围巾遮挡的人脸图像进行测试,作者提出的方法识别精度是最好的。

四、小结

1、提出了一种基于成对微分连体网络(PDSN)的遮挡鲁棒人脸识别方法,实现了针对遮挡人脸图像的识别任务;

2、在PSDN中还学习了一个掩模生成器,利用遮挡和无遮挡图像的特征差异来学习出相应的掩模;

3、在合成遮挡人脸数据集和真实人脸数据集上的对比结果证明了该方法的优越性,特别是在一般人脸识别任务上具有很强的泛化能力。

论文:《Attentional Feature-Pair Relation Networks for Accurate Face Recognition》

        在面部姿态、表情和光照发生剧烈变化的情况下实现较好鲁棒人脸识别是人脸识别技术实际应用面临的一大挑战。本文提出了一种新的人脸识别方法,称为注意特征对关系网络(AFRN),该方法通过相关的局部外观块特征对及其注意分数来表示人脸。

一、简介

背景        

        目前许多方法提取的是整体特征,并没有指定特征的哪些部分是有意义的,哪些部分是可分离的和可区分的。而且有些方法在很大程度上依赖于面部标志检测的准确性,没有考虑面部部位的重要性。

解决方案

        为了解决目前大多数人脸识别方法的缺点,作者提出了一种新的人脸识别方法,称为注意特征对关系网络(AFRN),它通过相关的局部外观块特征对及其注意分数来表示人脸:1) AFRN用9×9局部外观块特征的所有可能对来表示人脸;2)通过低秩双线性池化得到的注意图来考虑每对的重要性,并以其相应的注意力得分来加权;3)选择top-K对局部外观块特征作为相关的面部信息,并删除其余不相关的面部信息;4)利用双线性注意网络传播加权top-K对,提取联合特征对关系。

二、具体实现

图2.1 AFRN原理图 

2、1 面部特征编码网络

        人脸特征编码网络是将人脸图像进行深度编码的主干神经网络,作者采用改进后的ResNet-101网络作为特征编码网络。下图2.2是根据输入分辨率、卷积滤波器大小、输出特征映射大小的不同进行修改后的ResNet101的详细架构配置,最后一个卷积层(conv5_x)的非线性激活输出被用作面部外观表示的特征图。

图2.2 改进后的ResNet-101网络架构配置

 2、2 面部局部特征表示

        由图2.1可知这一阶段的面部局部特征图是由面部特征编码网路输出的9x9特征图,该特征图将人脸区域划分为81个局部块(9×9),其中每个局部块用于表示面部各部位的局部外观块特征,如下图2.3所示。

图2.3 面部局部块 (a)输入图像 (b)特征图上的面部局部块

         卷积层的激活输出可以表示为大小为H\times W\times D的张量,其中H和W表示每个特征图的高度和宽度,D表示特征图中的通道数。从本质上讲,卷积层将输入图像划分为H\times W子区域,并使用D维特征图描述每个子区域内的面部部分信息。一张人脸图像可以提取81个局部外观特征A=\left \{ f_{i}|i=1,2,...81 \right \},在文中f_{i}\epsilon \mathbb{R}^{2048}

2、3 注意特征对关系网络(AFRN)

2、3、1 重新排列局部外观块特征

        首先将一组局部外观块特征A按列方向叠加,将每个局部外观块特征f_{i}重新排列为矩阵FF=\left [ f_{1},...,f_{i},...,f_{N} \right ] \epsilon \mathbb{R}^{D\times N},其中N = H × W为局部外观块特征的个数。 

2、3、2 特征对双线性注意映射

        

 图2.4 提出的特征对双线性注意映射的过程

        采用特征对双线性注意映射\boldsymbol{A} \epsilon \mathbb{R}^{N\times N},为了得到\boldsymbol{A},可以计算局部特征块F_{i}F_{j}之间对p_{i,j}的softmax的分对数:

\boldsymbol{A}_{i,j} 是低秩双线性池化的输出,{U}' \epsilon \mathbb{R}^{D\times{L}'}{V}' \epsilon \mathbb{R}^{D\times{L}'}p \epsilon \mathbb{R}^{​{L}'},其中{L}'是低秩双线性池化中通过线性映射{U}'{V}'和池化p得到的维数。\sigma\circ,分别表示ReLU非线性激活函数和Hadamard积(元素乘法)。

2、3、3 联合特征对关系

图2.5 联合特征对关系 

         为了提取一个关节特征和减少局部外观块特征对的数量,可以写出局部外观块特征对的双线性模型公式,其中\boldsymbol{A}为双线性权重矩阵:

 {r}'_{l}表示中间特征对关系的第l个元素,矩阵的下标l表示列的下标。也可将上式改写成:

其中,F_{i}F_{j}分别表示输入F的第i个局部外观块特征和第j局部外观块特征。U_{l}V_{l}分别表示UV矩阵的第l列,\boldsymbol{A}_{i,j}表示A的第i行第j列的一个元素。 

        最后,通过将{r}'投影到可学习池化矩阵P上,得到联合特征对关系\tilde{r}

其中,\tilde{r} \epsilon \mathbb{R}^{C}, P \epsilon \mathbb{R}^{L\times C}C为联合特征对关系的维数,通过对P进行池化得到最终的联合特征对关系\tilde{r}

2、4 配对选择和注意力分配

         选择top-K对局部外观块特征作为相关的面部信息,并删除其余不相关的面部信息:

 

其中p_{i,j}是选中的具有top-K特征对注意分数的F_{i}F_{j}对。

         不同的局部外观块特征对具有相同的值尺度,但它们对人脸识别的贡献不同。因此,我们应该重新缩放局部外观块特征对,以反映它们的实际影响:

其中w_{i}(k)w_{j}(k)\Phi中第kp_{i,j}ij个索引,k表示配对选择层选择的配对数量。 

 三、实验

 3、1 数据集预处理

        VGGFace2数据集,通过使用多视角人脸检测器和深度对齐网络(DAN)来检测人脸区域及其面部标志点得到大约310万张8,630个人的面部图像作为精炼数据集,然后将这处理后的数据集分成两组:一组是拥有2.8M张人脸图像的训练集,另一组是拥有311773张人脸图像的验证集。我们使用68个面部标记点进行面部对齐,使用140×140分辨率的面部图像,每个像素通过将255除到[0,1]的范围内进行标准化。

3、2 实验细节

        在人脸特征编码网络的conv5_3残差块中提取了9×9×2,048特征图上的81个局部外观块特征,每个局部外观块特征具有2048维。局部外观块特征大小为D=2048,局部外观块特征数量为N=81。重新排列的局部外观块特征F的大小为\mathbb{R}^{2048\times 81},联合特征对关系的大小C为1024,等于AFRN的秩L,特征对双线性注意图的秩{L}'也是1024。每个线性映射(U,V,{U}',{V}',P)通过权值归一化正则化,使用了两层MLP,每层包含1024个单元,对F_{\theta }采用批量归一化和ReLU非线性激活函数。

 3、3 与最先进方法的比较

         作者为了公平地比较每个网络模块的效果,联合训练了三种模型(模型A、模型B和模型C):模型A是只有全局外观特征的面部特征编码网络模型;模型B是没有特征对选择层的AFRN模型;模型C是具有特征对选择层的AFRN模型。

IJB-A数据集实验

图3.1 (a) ROC(越高越好) (b)DET(越低越好) 

        三个模型在IJB-A数据集上与其他先进方法比较的实验结果如上图所示,其中TAR表示真接受率,FAR表示假接受率,TPIR表示真阳性识别率,FPIR表示假阳性识别率。由结果可知,在验证任务中,模型C比最先进的方法(DA-GAN)在FAR=0.001-0.1时高出0.7-1.9%的TAR;在识别接近集任务中,Rank-1高出2.2%;在识别开放集任务中,TPIR高出5.2% (FPIR = 0.01)

IJB-B数据集实验

 

 图3.2 (a) ROC(越高越好) (b)DET(越低越好) 

         IJB-B数据集是IJB-A数据集的扩展,作者来源IJB-B数据集上的先进方法与本文所提出的模型做比较实验。模型C在验证任务中,它比最先进的方法(Comparator Net)在FAR=0.0001-0.01时高出0.4-3.6%;在IJB-B数据集上的另一种最先进的方法(PRN^{+})在识别接近集任务中,Rank-1高出3.8% ;在识别开放集任务中,TPIR高出5.0%(FPIR = 0.01)。这验证了所提出的AFRN对选择在大规模和具有挑战性的无约束人脸识别上的有效性。

四、小结

         作者提出了新的人脸识别方法,设计了一种注意特征对关系网络(AFRN),该网络使用局部外观块特征对及其加权注意分数来表示人脸。通过实验表明,该方法与目前具有挑战性的LFW、YTF、CALFW、CPLFW、CFP、AgeDB、IJB-A、IJB-B和IJB-C数据集上的最先进方法相比,所提出的AFRN在1:1人脸验证和1:N人脸识别任务中取得了最先进的结果。

论文:《Component Attention Guided Face Super-Resolution Network: CAGFace》

        为了充分利用人脸的底层结构、通过人脸数据集收集的信息以及上采样过程中的中间估计,作者引入了一种用于4倍超分辨率人脸图像的全卷积多级神经网络。

一、简介

1、1 背景

  • 当输入的人脸图像的分辨率较低时,常用的面部处理方法(如面部对齐和识别)的性能会降低。
  • 许多基于深度神经网络的人脸超分辨率方法,其输入图像可能包括整个脸部。由于训练和推理时间的计算和内存要求,它们既不能处理大的输入人脸,也不能解析细粒度的人脸特定模式。
  • 在流行的数据集中普遍存在的对人脸图像正面面部的依赖,这限制了它们在大姿势变化导致面部细节失真的情况下的使用。

1、2 解决方案

        为了充分利用人脸的底层结构、通过人脸数据集收集的信息和上采样过程中的中间估计,论文提出了一种用于人脸图像4倍超分辨率的全卷积多级神经网络。网络的每个阶段都由一个主干层、一个剩余主干层和空间上采样层组成。作者循环地应用阶段来重建中间图像,然后重用其空间到深度转换版本来逐步引导和增强图像质量。

二、CAGFace

图1.1 CAGFace架构 

     网络的模型包括一个离线训练的组件网络和两个超分辨率阶段。首先,将面部组成部分进行分割,并生成针对各个组成部分的注意力图,然后进行随机采样以进行训练。超分辨率网络分为两个阶段:第一阶段估计2倍中间HR(高分辨)图像;第二阶段建立在空间到深度转换的中间HR图像上,并通过分段跳过连接使用第一主干层的原始特征,同时隐式地施加组件级注意。

2、1 网络组件

  • 对于面部成分的分割,作者使用了与BiSeNet相似的模型,并在CelebAMask-HQ数据集上对模型进行微调。
  • 应用了一个空间池化层,该层采用固定的高斯空间核,通过平滑来抑制分割误差。这一层还允许将注意力图中的更高值分配给更自信的分割像素。
  • 将输入图像与三个空间池化组件相乘,得到三个灰度级注意图。将原始LR(低分辨率)图像和注意力映射叠加到一个块中,使用这些地图作为注意力先验来引导剩余的超分辨率网络。
  • 在训练阶段,从这个块中随机抽取补丁。因此,每个补丁都有裁剪后的原始图像和相应的注意力地图。

图2.1 灰度级注意图(文中主要使用:头发、皮肤、其他部分)

2、2 超分辨率阶段

        每个超分辨率阶段都有三个主要组成部分:混合输入补丁通道的主干层将完全卷积块应用到低分辨率特征图上的残余主干、重构高分辨率图像的空间上采样层。

        主干层以一个补丁块作为输入张量,并对其应用卷积滤波器。每个深度通道是LR图像和相应热图加权分量的颜色通道,这些分量归一化为[-1,1]以实现高效的反向传播。在第一阶段的主干层安排补丁块在一个6通道张量。然后应用256个过滤器,每个3×3×6。在接下来的阶段,我们有额外的渠道。在第一阶段之后,我们估计一个2倍超分辨率的HR图像,将估计HR图像的像素重新排列(即空间到深度)为4个LR图像,然后将这些LR图像组合成一个12通道张量。由于我们对所有层(上采样层除外)使用相同的图像大小,学习变得更有效,多个引用提供了空间上活跃的局部模式。

2、3 损失函数

        为了获得更高的PSNR结果,MSE将是理想的损失函数,作者选择强加Huber损失函数,它是可微的,并结合了MAE和MSE的的优点,损失函数定义如下:

其中

d是为目标(groundtruth) HR图像I_{HR}与估计HR图像\hat{I}_{HR}之间的像素差。设\delta =1,这是Huber损失函数从二次函数变为线性函数的点。


PSNR:

峰值信噪比( PSNR ) ,用于表示信号的最大可能功率与影响其表示的保真度的破坏噪声的功率之间的比率。PSNR 在图像处理上主要用于量化受有损压缩影响的图像和视频的重建质量。

MSE:

均方误差(MSE),反映估计量与被估计量之间差异程度的一种度量。范围[0,+∞),当预测值与真实值完全吻合时等于0,即完美模型。值越小,机器学习网络模型越精确,相反,则越差。


三、实验

数据集

        使用Flickr-Faces-HQ Dataset (FFHQ)数据集,将FFHQ数据集随机分为比例分别为80%、15%和5%的非重叠训练、测试和验证子集。

3、1 与其他先进方法比较

 训练了两种不同模型:

  • 基于全脸的模型,用整张人脸图像作为输入,输入大小为256x256。
  • 基于补丁的模型,使用与上述相同的网络和相同大小的重叠补丁作为输入,输入大小为128x128。

图3.1 基于补丁模型

         图3.1,是与基于补丁版本的最先进方法的比较结果(输出HR映像为1024×1024)。可见,作者的方法可以在没有工件和类噪声模式的情况下进行超分辨。重建的图像在视觉上表现突出,并且比现有的方法更接近真实的地标。

图3.2 基于全脸模型

        图3.2,是与最先进的全脸版本进行比较的实验结果,即使用64×64人脸图像作为输入进行训练,以生成大小为256×256的4倍HR输出。可见,作者的方法对全脸训练也产生了优异的结果。

 

        上图是两种不同模型与其他先进方法的各个评价指标的比较结果,可见作者提出的模型在各种指标(包括PSNR, SSIM和FID)下的表现都优于比较的最先进的方法,具有显著的边际。

四、小结 

本文主要贡献:

  • 为单图像人脸超分辨率引入基于补丁的全卷积网络,该网络在主干和各层中处理原始低分辨率的面片,然后从重新排列的特征图中重建高分辨率输出。
  • 作者反复应用超分辨率阶段,以利用前一阶段重建的高分辨率输出,逐步增强估计的高分辨率细节。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值