Component Attention Guided Face Super-Resolution Network: CAGFace

Component Attention Guided Face Super-Resolution Network: CAGFace 2020 WACV

在这里插入图片描述

1、引言

主要思想
本文先介绍大脑对人脸的关注超过对其他任何物体类别的关注,然后分析最近几年的人脸超分方法有几个问题存在:
1、当人脸的分辨率较低时,常用的面部分析技术(如面部对齐和识别)的性能会降低;
2、许多基于深度神经网络的人脸超分辨率方法其输入图像包括整个脸部。由于训练和推理时间的计算和内存要求,它们既不能处理大的输入面,也不能解析细粒度的特定于面的模式;
3、在流行的数据集中普遍存在的对近额面部的依赖限制了它们在导致面部细节扭曲的大型姿势变化中的使用。
因此为了充分利用人脸的底层结构、通过人脸数据集收集的信息和上采样过程中的中间估计,本文提出了一种用于人脸图像4×超分辨率的全卷积多级神经网络。网络的每一级都由主干层、残差主干层和空间上采样层组成。我们递归地应用阶段来重建一幅中间图像,然后重用其空间到深度转换后的版本来逐步引导和提高图像质量。
本文贡献
1、我们为单图像人脸超分辨率引入基于补丁的全卷积网络,该网络在主干和各层中处理原始低分辨率的面片,然后从重新排列的特征图中重建高分辨率输出。
2、我们反复应用超分辨率阶段,以利用前一阶段重建的高分辨率输出,逐步增强估计的高分辨率细节

背景:为了充分利用人脸的基础结构、以及在上采样过程中的中间估计;
方法:我们网络的每个阶段都由一个主干层,一个残留主干和空间上采样层组成。我们周期性地应用阶段来重构中间图像,然后重用其从空间到深度的转换版本来引导并逐步提高图像质量;
结论:实验表明,与最新技术相比,我们的脸部超分辨率方法在数量上和感觉上都达到了最新水平。

2、网络结构

本文提出了一种基于面片的人脸超分辨率方法,该方法可以有效地处理较大的输入人脸,而不是以往试图通过神经层要求和应用整个人脸图像的方法。文章的想法就是虽然精确地检测人脸的标志点是具有挑战性的,但是可以近似地估计基于面片的面部成分的注意图,并利用这些注意图来引导超分辨率过程,从而促进更自然、更准确的分辨率增强。

在这里插入图片描述

图1 CAGFace体系结构。首先,对面部成分进行分割,并生成各个成分的注意力图。为了训练,对随机补丁进行采样。超分辨率网络分为两个阶段:第一阶段估算2倍的中间HR图像。第二阶段建立在空间深度转换的中间HR图像的基础上,并通过阶段跳过连接使用第一主干层的原始特征,同时隐式地施加组件注意。

模型由一个离线训练的组件网络和两个超分辨率阶段组成。我们首先使用离线训练的神经网络来分割面部成分。这些成分包括皮肤、眼睛、嘴巴、眉毛、鼻子、耳朵、颈部和类似的面部区域。特别是,为了简单起见,文中使用了三个组件:头发、皮肤和其他部分。具体如图2所示。我们将输入图像逐个像素地乘以每个组件的热图,以获得热图加权的组件,这允许我们将组件作为隐含的注意先验。我们将原始图像和注意力图堆叠到一个块中。在训练阶段,我们从该面块中随机抽取补丁,其中每个补丁都包括裁剪后的原始图像和相应的注意力图。随机采样会生成大小相同的补丁及其增强(翻转)版本。我们逐块处理LR图像并汇总其HR估计值。
在这里插入图片描述

图2 来自组件网络的样本关注图。

每个超分辨率阶段都有三个主要组成部分。混合输入面片通道的主干层,在低分辨率特征图上应用完全卷积块的残留主干以及重构高分辨率图像的空间上采样层。其中残差主干由完全卷积的残差单元组成。我们通过两个连续的2x分辨率增强网络阶段实现了4x超分辨率。(与现有方法不同,我们的方法不采用2倍超分辨率,而是文中的方法就是在第一级的输出上使用第二个2倍超分辨率。到第二阶段的输入特征图的空间大小与原始LR图像的大小相同。)
如上所述,我们通过从空间到深度地将估计的高分辨率图像重新排列成多个低分辨率通道、通过用于附加正则化的逐级跳过连接施加第一主干层的特征地图以及应用第二级网络来引导超分辨率过程。

3、损失函数

为了获得更高的PSNR结果,MSE将是理想的损耗函数。但是,MSE严重惩罚了异常值。最近,有工作证明了平均绝对误差(MAE)比MSE更好。特别是在训练的初始阶段,使用基于MSE的损失函数会导致不稳定。但是,基于MAE的损失在随后的时期缓慢收敛。因此,我们选择施加Huber损失函数,该函数是可微的,并结合了MAE和MSE的优点。定义为:
在这里插入图片描述

d是目标(地面)HR图像IHR和估计的HR图像I-HR之间的像素方向差异。我们设置δ= 1,这是Huber损失函数从二次变为线性的点。

4、实验结果

使用来自Flickr-FacesHQ数据集(FFHQ)[25]的1024×1024人脸图像,该图像由70,000张高质量PNG图像组成,这些人脸属性在年龄,种族和图像背景等方面都有很大的差异。它还提供足够的配件覆盖范围,例如眼镜,太阳镜和帽子。图像是从Flickr抓取的。然后,我们将FFHQ数据集随机分为比例分别为80%,15%和5%的非重叠训练,测试和验证子集。
为了定量评估性能并与最新方法进行全面比较,我们使用了四个质量评估指标,包括PSNR,SSIM,FID和MS-SSIM。
我们训练了单独的模型:

  • 全脸版本使用整个脸部图像作为输入。有人可能会争辩说,把脸作为一个整体来使用会提供更好的语义。在实验中,我们将输入大小设置为256×256张人脸图像。
  • 基于补丁的版本使用与上述相同的网络和相同大小的重叠补丁。对于1024×1024 HR输出,我们将补丁大小设置为256×256。我们还测试了128×128的补丁尺寸。基于补丁的版本允许生成非常大的输出面,而不受GPU内存的限制。

在这里插入图片描述

与最先进的基于补丁版本的方法进行比较(输出HR图像为1024×1024)。可见,我们的方法可以在没有伪影和类似噪声的模式下进行超分辨。重建的图像在视觉上令人愉悦,而且比现有方法更接近地面真实情况。
在这里插入图片描述

在这里插入图片描述

与最先进的全脸版本进行比较,即以64×64的人脸图像作为输入进行训练,生成大小为256×256的4×HR输出。可见,我们的方法也为全脸训练产生了优越的结果。
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值