Super-FAN论文阅读笔记

Super-FAN是一种创新的端到端系统,结合了面部超分辨率和地标定位。通过集成子网和热图损失,该方法能够在任意面部姿势的低分辨率图像上同时提升图像质量和定位面部特征。与现有技术相比,Super-FAN在人脸超分辨率和对齐方面显示出显著改进,并首次在真实世界的低分辨率面部图像上实现了良好效果。
摘要由CSDN通过智能技术生成

题目:Super-FAN: Integrated facial landmark localization and super-resolution of real-world low resolution faces in arbitrary poses with GANs

中文:Super-FAN:使用GAN在任意姿势下集成了面部界标定位和超高分辨率的现实世界低分辨率面孔

在这里插入图片描述

摘要

  • 本文解决了两个具有挑战性的任务:提高低分辨率面部图像的质量,并在此类分辨率较差的图像上准确定位面部标志。为此,我们做出了以下五点贡献:(a)我们提出了superFAN- :这是第一个同时解决这两项任务的端到端系统,即既提高了面部分辨率又检测了面部标志。新型Super-FAN在于通过集成子网通过热图回归实现人脸对齐并优化新型热图损失,从而将结构信息整合到基于GAN的超分辨率算法中。 (b)我们通过报告不仅在正面图像上(如在先前工作中)而且在整个面部姿势频谱上不仅在合成低分辨率图像上(如在先前工作中)报告良好的结果来说明联合训练两个网络的好处而且还可以显示真实图像(c)通过提出一种新的基于残差的架构,我们改进了人脸超分辨率的最新技术。 (d)从数量上看,我们在人脸超分辨率和对齐方式方面都显示出比现有技术有很大的提高。 (e)定性地,我们首次在现实世界中的低分辨率图像上显示出了良好的效果,如图1所示。

背景:超分辨的同时进行地标检测
方法:通过集成子网通过热图损失实现人脸对齐并优化新型热图损失,从而将结构信息整合到基于GAN的超分辨率算法中。
结论:从数量上看,我们在人脸超分辨率和对齐方式方面都显示出比现有技术有很大的提高。 (e)定性地,我们首次在现实世界中的低分辨率图像上显示出了良好的效果,如图1所示。

引言

引出面部超分辨和面部对齐的联系

  • 本文的目的是改善非常低分辨率的面部图像的质量和理解。这在许多应用程序中都很重要,例如面部编辑监视/安全性。在质量方面,我们的目标是提高分辨率并恢复现实世界中低分辨率的人脸图像的细节,如图1的第一行所示。此任务也称为人脸超分辨率(当输入分辨率太小时,此任务有时称为人脸幻觉)。在理解方面,我们希望通过定位一组具有语义含义的预定义面部标志(如鼻尖,眼角等)来提取中高级面部信息;此任务也称为面部对齐。

如何同时解决超分辨和面部检测

-尝试同时解决这两个任务确实是一个鸡与蛋的问题:一方面,已经能够检测出面部标志对于面部超分辨率是有益的[34,30];然而,如何在任意姿势下实现低分辨率的脸仍然是一个尚待解决的问题[4]。另一方面,如果一个人可以有效地在整个面部姿势谱中超分辨低质量和低分辨率的面部,则可以高精度地定位面部地标。

人脸分辨率过小时候,很难进行面部定位
面部定位不准确会导致超分辨图像出现伪影

  • 由于很难检测出分辨率非常低的人脸中的地标(如[33,34]所示并在本工作中得到验证),因此基于此思想的现有超分辨率方法,当面部地标定位不佳时,会产生带有伪影的模糊图像。我们的主要贡献是表明,即使对于完全任意姿势的非常低分辨率的面部,实际的人也可以共同执行面部界标定位和超分辨率(例如,轮廓图,另请参见图1和5)。

我们的贡献就是对于任意姿势的非常低的面部,也可以同时执行人脸超分辨和面部定位

  • 主要贡献
    • 1.我们提出了Super-FAN:这是第一个同时解决人脸超分辨率和对齐问题的端到端系统,方法是将通过热图损失将面部地标定位的子网集成到基于GAN的超分辨率网络中,并合并了新颖的热图损失。另请参阅图2
    • 2。我们展示了在任意脸部姿势的合成生成的和真实世界的低分辨率面部上联合训练两个网络的好处。
    • 3。我们还提出了一种改进的基于残差的体系结构以实现超分辨率。
    • 4。定量地,我们首次报告了在LS3D-Wdataset上整个面部姿势频谱中的结果[4],并且在超分辨率和面部对齐方面均显示出比最新技术有很大的改进。
    • 5。定性地,我们第一次展示了从WiderFace数据集[31](见图1和5)中获得的真实世界的低分辨率面部图像的良好视觉效果。

相关工作

  • 本节回顾了图像和面部超分辨率以及面部界标定位中的相关工作。

使用感知损失待替逐像素损失

  • 图像超分辨率。使用CNN的超分辨率的早期尝试[6,16]使用了标准Lp损失进行训练,从而导致模糊的超分辨图像。为了消除这种情况,[15]的作者建议在特征图上使用MSE,而不是在像素上使用MSE(在超分辨和地面真实HR图像之间),即知觉损失。值得注意的是,我们还使用了感知损失法。最近,在[20]中,作者提出了基于GAN的方法[7],该方法使用区分器来区分超分辨图像和原始HR图像以及知觉损失。在[26]中,提出了基于补丁的纹理损失以提高重建质量。

上述方法是通用方法,不包含先验信息。但是在人脸领域需要处理分辨率很小的图像。

  • 注意,上述所有图像超分辨率方法都可以应用于所有类型的图像,因此不包含面部特有信息,这在我们的建议中工作。同样,在大多数情况下,目标是在给定具有良好分辨率(通常为128×128)的图像的情况下生成高保真图像,而人脸超分辨率方法通常会处理分辨率很低的人脸(16×16或32)的结果×32)。

  • 从上述所有方法中,我们的工作与[15]和[20]密切相关。特别地,我们的贡献之一是描述一种改进的基于GAN的超分辨率体系结构,我们将其用作强大的基线,并在此基础上构建了集成的人脸超分辨率和对齐网络。

  • 人脸超分辨[32]的最新工作使用一种基于GAN的方法(如[20]的方法,没有知觉损失)来超分辨率极低分辨率的人脸。该方法被证明适用于从中取出的正面和预先对准的人脸CelebA数据集[21]。在[33]中,同一作者提出了两步解码器-编码器-解码器体系结构,该体系结构包含空间变压器网络以消除平移,缩放和旋转未对准。他们的方法在来自CelebA的前部数据集的预对齐,合成生成的LR图像上进行了测试[21]。值得注意的是,我们的网络并没有试图消除歧义,而是简单地学习了如何进行超分辨,并通过整合具有里程碑意义的本地化子网来重新指定人脸的结构。

提出问题:必须解决模糊图像的地标定位问题

  • 与我们的方法最接近的工作是[34],它以交替的方式执行面部超分辨率和密集面部对应。他们的算法在PubFig [18]和Helen [19]的正面进行了测试,而对真实图像的结果很少(总共4个)也没有成功。与我们的工作的主要区别在于,在[34]中,稠密对应算法不是基于神经网络,而是基于级联回归,是从超分辨率网络中脱节预先学习的,并且保持固定。这样,[34]遭受了同样的问题,即必须在模糊的面部上检测地标,这对于算法的第一次迭代尤为明显。相反,我们建议在端到端的方式中同时学习超分辨率和人脸地标定位,并只用一个镜头联合超分辨图像并定位人脸地标。参见图2。如我们所示,这将大大提高性能,并在整个面部姿势频谱中生成高保真度的图像。

我们使用的数据集不是正面的,而是包含各种姿势

  • 值得一提的是,我们超越了现有技术,并在定量和定性方面严格评估了超分辨率和面部地标在整个面部姿势中的定位。与以前主要使用正脸数据集[33、5、13、34、32、30](例如CelebA,Helen,LFW,BioID)来报告结果的工作相反,我们实验中的低分辨率图像是使用新的创建的LS3D-W平衡数据集[4],每个面部姿势包含偶数个面部图像。我们还定性报告了从WiderFace数据集获取的200多个真实世界的低分辨率面部图像[31]。据我们所知,这是对真实图像上人脸超分辨率算法的最全面评估。

在高分辨率图像上训练好的网络,处理低分遍人脸对齐时性能下降很大。我们在已有对齐网路的基础上,与超分辨网络共同训练,可以提升效果。

  • 人脸对齐:最近对面部对齐的评估[4]显示,当分辨率下降到30像素时,针对中型和大型姿势在标准面部分辨率(192×192)上训练的最新网络的性能下降超过15 %和30%。结果是我们工作背后的主要动机之一。我们的目的不是要提出一种新的人脸对齐架构,而是使用[4]的人脸对齐网络(FAN),该网络是通过将[22]的Hourglass网络与[3]的残差块相结合而构建的。如图[4]所示,FAN在整个面部姿势频谱上都能提供出色的性能,以获得高分辨率的图像。正如我们在本文中所显示的那样,经过专门培训以定位低分辨率图像中的地标的FAN的性能很差。我们的一项贡献是表明,与超分辨率网络集成并共同训练的FAN可以高精度地定位低分辨率图像中的人脸地标

在这里插入图片描述

图2:拟议的Super-FAN体系结构包括三个连接的网络:第一个网络是新提议的超分辨率网络(请参见4.1小节)。第二个网络是基于WGAN的鉴别器,用于区分超分辨图像和原始HR图像(请参见第4.2小节)。第三个网络是FAN,这是一个面部对齐网络,用于在超分辨的面部图像上定位面部界标,并通过新引入的热图损失来提高超分辨率(请参见第4.3节)。

数据集

  • 为了系统地评估人脸的超分辨率,我们从300W-LP [35],AFLW [17],Celeb-A [21]和一部分LS3D-W平衡[4]构建了训练数据集。为了进行测试,我们使用了LS3D-W平衡的剩余图像,其中每个姿势范围([0o-30o],[30o-60o],[60o-90o])均等地表示。
  • 300W-LP是合成扩展的通过人工将300W的面部[25]渲染为较大的图像(-900至900)而获得的数据集。虽然数据集包含61,225个图像,但只有大约3,000个唯一面孔。而且,图像受变形过程引起的伪影的影响。我们将整个数据集包括在训练集中.
  • AFLW是一个大规模的面部对齐数据集,其中包含从Flickr收集的各种姿势和表情的面部。全部25,993张面孔都包含在我们的训练集中.
  • Celeb-A是一个大规模的面部属性数据集,包含10,177个唯一身份和202,599张面部图像。大多数图像是无遮挡的,并且具有额叶或近额叶的姿势。为了避免使训练集偏向于正面姿势,我们仅使用了随机选择的近似子集。 20,000张脸。
  • LS3D-W平衡是LS3D-W [4]数据集的子集,其中包含7,200张在野外捕获的图像,其中每个姿势范围([00-300],[300-600],[600-900] )平均代表(每个2400张图像)。我们使用了4,200张图像进行训练,并保留了3000张进行测试。
  • WiderFace是一个面部检测数据集,包含32,203张图像,这些图像的面部在姿势,遮挡和质量方面表现出高度的可变性。为了评估我们在野外真实图像上的超分辨率方法的性能,我们随机选择了200个分辨率很低,严重模糊的面部进行定性评估。

方法

  • 在本节中,我们描述了由三个连接的网络组成的拟议架构:第一个网络是用于超解析LR图像的超分辨率网络。第二个网络是用于区分超分辨图像和原始HR图像的判别器。第三个网络是FAN:脸部对齐网络,用于在超分辨的面部图像上定位脸部界标。请注意,在测试时不使用鉴别​​器。总体而言,我们将我们的网络称为超级粉丝。参见图2。值得注意的是,对于超分辨率,我们提出了一种新的架构,如图3a所示,并在4.1小节中详细介绍了它的损失函数以及对其进行训练的损失函数。我们基于Wasserstein GAN [1]的判别器在第4.2小节中进行了描述。第4.3小节介绍了集成的FAN以及新引入的超分辨率热图回归损失。第4.4小节提供了训练超级粉丝的全部损失。最后,第4.5小节介绍了完整的培训程序。
热图损失
  • 基于以上讨论,我们建议热图损失:其中前者是我们生成的超分辨结果的热图,后者是原始HR的热图。
    在这里插入图片描述
    其中̃Mni,j是与在超分辨图像ˆIHR和̂Mni上运行到我们的超分辨率网络中的FAN集成而产生的像素(i,j)上的第一个地标相对应的热图,即by原始imageIHR上的FAN。我们的热图损失的另一个关键特征是其优化不需要访问预训练的FAN就可以访问地面真实地标注释。这使我们能够以弱监督的方式来训练整个超分辨率网络,这是必要的,因为无论如何,用于训练的某些数据集(例如CelebA)地面真实地标注释都不可用。

结论

  • 我们提出了Super-FAN:第一个用于集成面部超分辨率和界标定位的端到端系统。我们的方法通过整合子网以实现面部对齐,将面部结构信息纳入了新提出的超分辨率架构中并优化新的热图损失。我们在最先进的脸部超分辨率和整个面部姿势调整方面都显示出极大的改进。我们还首次在真实世界的低分辨率面部图像上显示了良好的效果。

在这里插入图片描述

图3:提议的超分辨率架构(左)与[20]中描述的架构(右)之间的比较。另请参阅第4.1节。
在这里插入图片描述
图4:在LS3D-W上的视觉结果。注意:(a)拟议的Ours像素特征已经提供了比SR-GAN [20]更好的结果。 (b)通过额外添加新提议的热图损失(Ours-pixel-feature-heatmap),生成的脸部结构更好,看起来更加逼真。 Ours像素特征热图GAN是超级粉丝,它通过增加GAN损耗并通过端到端训练来改善我们的像素特征热图。最好以电子格式查看。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值