Face Super-Resolution Guided by 3D Facial Priors(ECCV2020)论文解读

Face Super-Resolution Guided by 3D Facial Priors(ECCV2020)论文解读

论文地址:https://arxiv.org/pdf/2007.09454.pdf
项目地址:暂未开源

摘要-最新的人脸超分辨率方法采用深度卷积神经网络,通过探索局部外观知识来学习低分辨率和高分辨率脸部图案之间的映射。然而,大多数这些方法不能很好地利用面部结构和身份信息,并且难以处理表现出较大姿势变化的面部图像。在本文中,我们提出了一种新颖的人脸超分辨率方法,该方法显式地结合了3D人脸先验,从而掌握了清晰的人脸结构。我们的工作是第一个基于对面部属性(例如身份,面部表情,纹理,照明和面部姿势)的参数描述进行融合来探索3D可变形知识的工作。此外,先验可以轻松地合并到任何网络中,并且在提高性能和加快收敛速度方面非常有效。首先,建立3D人脸渲染分支以获得显着的人脸结构和身份知识的3D先验。其次,空间注意力模块用于更好地利用此分层信息(即强度相似度,3D面部结构和身份内容)解决超分辨率问题。大量的实验表明,与现有技术相比,拟议的3D先验技术具有出色的人脸超分辨率结果。

1 引言-人脸图像为人类观察和计算机分析提供了重要线索[20,45]。然而,当面部图像的分辨率相对较低时,大多数面部图像任务的性能,例如面部识别和面部情感检测[11,32],都会大大降低。因此,创造了人脸超分辨率(也称为人幻觉),以从低分辨率对应图像中恢复高分辨率人脸图像。
在这里插入图片描述

尽管大量的深度学习方法[3,5,9,24,36-39,44,46,47]已成功应用于面部超分辨率(SR)问题,超分辨任意面部图像,尤其是在高放大倍率下由于SR问题的不适定性以及难以学习并将强先验知识整合到面部幻觉模型中,这些因素仍然是一个开放且具有挑战性的问题。已经提出了一些关于利用面部先验来帮助神经网络捕获更多面部细节的研究[4,10,16,28,35,41]。在文献[10]中提出了一种结合了身份先验的幻觉模型。但是,身份先验仅是从训练过程中的多尺度上采样结果中提取的,因此无法提供额外的先验来指导网络。 Yu等。 [35]采用面部分量热图来鼓励上采样流生成具有更高质量细节的超分辨面部,特别是对于较大的姿势变化。 Kim等。 [16]提出了一个人脸对齐网络(FAN)用于地标热图提取,以提高人脸SR的性能。 Chen等。[4]利用热图和解析图来解决人脸SR问题。尽管这些2D先验提供全局组件区域,但是这些方法无法学习详细边缘,照明和表达先验的3D重建。另外,所有这些上述面部SR方法都忽略了面部结构和身份恢复。

与上述方法相比,我们提出了一种新颖的人脸超分辨率方法,该方法通过利用3D人脸先验知识来掌握清晰的人脸结构和身份知识。首先,建立一个深3D人脸重建分支,以明确获得3D人脸渲染先验,这有助于人脸超分辨率分支。具体地说,3D面部先验包含丰富的分层特征,例如低级(例如,锐利的边缘和照明)和感知级(例如,身份)信息。然后,使用空间注意力模块将3D面部优先自适应地集成到网络中,其中我们采用空间特征变换(SFT)[34]来生成用于空间特征调制的仿射变换参数。之后,它鼓励网络在将注意力模块添加到网络中后,学习3D面部先验图像与输入图像之间的空间相互依赖关系。如图1所示,与其他基于2D先验的方法相比,通过嵌入3D渲染的先验先验,我们的算法可生成更清晰,更清晰的面部结构,而没有任何重影伪影。

本文的主要贡献是:
•通过以面部先验估计的形式显式利用面部结构,提出了一种新颖的面部SR模型。估计的3D面部先验不仅提供面部成分的空间信息,而且还提供其3D可见性信息,而像素级内容和2D先验(例如地标热图和解析图)将忽略这些信息。
•为了很好地适应低分辨率面部图像的3D重建,我们提出了一个新的皮肤感知损失函数,将构造的3D系数投影到渲染的图像上。此外,我们使用基于特征融合的网络通过采用空间关注模块更好地提取和整合先验渲染的人脸。
•我们提出的3D面部优先技术具有高度的灵活性,因为其模块化结构可轻松插入任何SR方法(例如SRCNN和VDSR)。我们在多尺度人脸超分辨率上,特别是在非常低的输入分辨率下,定性和定量地评估了该算法。与最新的面部SR方法相比,该网络可实现更好的SR标准和出色的视觉质量。

2 相关工作-幻觉与自然图像超分辨率问题密切相关。在本节中,我们将讨论有关超分辨率和幻觉的最新研究,以说明我们工作的必要背景。

超分辨率神经网络。最近,神经网络已经证明了改善SR结果的卓越能力。由于开拓性网络[7]证明了CNN学习LR和HR对之间映射的有效性,因此已经为SR提出了许多CNN体系结构[8,12,18,19,30,31]。现有的大多数高性能SR网络都有剩余的块[17],可以在网络体系结构中更深入地了解并获得更好的性能。 EDSR [22]通过去除残留块中不必要的批标准化层来提高性能。提出了一种残差密集网络(RDN)[43],以利用所有卷积层的分层特征。张等。 [42]提出了非常深的残留信道注意网络(RCAN)来丢弃大量的低频信息,这阻碍了CNN的表示能力。 Wang等。 [34]使用空间特征变换层来引入语义先验作为SR网络的附加输入。黄等。 [14]提出了一种基于小波的CNN方法,该方法可以在统一框架中超分辨率极低分辨率的人脸图像。廉等。 [21]提出了一种功能导向的超分辨率生成对抗网络(FG-SRGAN),用于不成对的图像超分辨率。但是,这些网络需要大量时间来训练大量参数以获得良好的结果。在我们的工作中,我们在很大程度上减少了训练参数,但在SR标准(SSIM和PSNR)和可见质量方面仍取得了卓越的性能。

面部先验知识。利用面部幻觉中的面部先验,例如面部成分的空间配置[29],是将其与一般超分辨率任务区分开的关键因素。有些人脸SR方法使用人脸先验知识来超分辨LR人脸。 Wang和Tang [33]从LR和HR面部图像中学习了子空间,然后从LR输入的PCA系数重构了HR输出。刘等。 [23]设置了马尔可夫随机场(MRF)以减少由于LR图像中的未对准而导致的重影伪影。但是,这些方法容易产生严重的伪影,尤其是在LR图像中存在较大的姿态变化和未对准的情况下。 Yu和Porikli [38]将多个空间变换器网络[15]与反卷积层交织在一起,以处理未对齐的LR面。达尔等。 [5]利用PixelCNN [26]的框架来超分辨率极低分辨率的人脸。朱等。 [47]提出了一个称为CBN的级联双网络,首先定位LR面部成分,然后对面部成分进行上采样;但是,当发生本地化错误时,CBN可能会产生鬼面。最近,Yu等。 [35]使用多任务卷积神经网络(CNN)来融合人脸的结构信息。 Grm等。 [10]建立了一个面部识别模型,该模型在训练过程中充当超分辨率网络的身份先验。 Yu等。 [4]构建了一个端到端的SR网络,以合并面部标志性热图和解析图。 Kim等。 [16]提出了一种面部对齐网络(FAN)的压缩版本,以一种渐进的方法获得SR网络的界标热图。然而,现有的面部SR算法仅采用2D先验,而没有考虑高维信息(3D)。在本文中,我们利用3D人脸重建分支提取3D人脸结构,详细的边缘,照明和身份先验,以指导人脸图像超分辨率。

3D人脸重建。面部图像的3D形状可以通过3D面部重建从不受约束的2D图像中恢复。在本文中,我们基于面部属性(例如性别,身份和独特性)的参数描述融合,采用了3D变形模型(3DMM)[1、2、6]重建3D面部先验。 3D重建的面部将继承面部特征,并呈现清晰锐利的面部成分。

与我们最接近的是Ren等人的工作。 [28]在面部视频去模糊的任务中利用了3D先验。我们的方法在几个重要方面有所不同。首先,代替简单的先验级联,我们通过自适应调整调制参数对,采用空间特征变换块将3D先验合并到中间层中。具体地,通过在空间上对每个中间特征图应用仿射变换,由调制参数对来自适应地控制SFT层的输出。其次,注意力机制已嵌入网络中,以作为指导以指导大多数信息组件的分配以及3D先验与输入之间的相互依赖性。
在这里插入图片描述

3 提出的方法
图2中提出的拟议人脸超分辨率框架包括两个分支:用于提取人脸先验的3D渲染网络和旨在针对人脸超分辨率问题利用先验的空间关注模块。给定低分辨率的人脸图像,我们首先使用3D渲染分支提取3D人脸系数。然后,使用3D系数生成高分辨率渲染图像,并将其视为高分辨率面部优先,这有助于空间关注模块中的面部超分辨过程。

3.1 3D面部先验的动机和优势

现有的脸部SR算法仅采用2D先验,而不考虑高维信息(3D)。 3D可变形人脸先验是这项工作的主要新颖之处,并且与最近相关的2D先验工作完全不同(例如,FSRNet [4]解析的地图和面部地标热图,以及FAN [16]提取的地标热图)。 3D系数包含丰富的层次知识,例如身份,面部表情,纹理,照明和面部姿势。此外,与基于2D地标的先验仅将注意力集中在可能导致面部变形和伪影的面部地标的不同点上相比,我们的3D先验是清晰可见的,并且可以生成逼真的且稳定的HR结果,从而大大降低了甚至较大的姿势变化和部分遮挡的伪影。

给定低分辨率的面部图像,生成的3D渲染重建如图3所示。即使在包含较大姿态变化的图像中,渲染的面部预测也包含清晰的空间知识和接近地面的面部成分的清晰视觉质量。如图3的第二行所示。因此,我们将重建的面部图像连接为超分辨率网络中的附加功能。面部表情,身份,纹理,照明的元素级联和面部姿势被转换成四个特征图,并被馈送到超分辨率网络的空间特征变换块中。

对于3D人脸可变形模型的实际应用,要解决的典型问题包括大的姿态变化和部分遮挡。如补充材料中所示,可变形模型可以生成大的姿势变化的逼真重建,其中包含忠实的面部表情视觉质量。 3D模型也很健壮,可以准确地还原部分被眼镜,头发等遮挡的渲染脸部。与不知道未知降级类型的其他SR算法相比,我们的3D模型可以强大地生成3D可变形先验来指导SR分支甚至在复杂的现实应用中也可以掌握清晰的空间知识和面部组成。此外,我们的3D先验产品可以插入任何网络中,并在很大程度上改善现有SR网络的性能(例如,第5节中演示的SRCNN和VDSR)。
在这里插入图片描述

3.2 制定3D面部先验
对于最新的边缘预测方法来说,从低分辨率图像中获取非常清晰的面部结构仍然是一个挑战。因此,提出了一种基于3DMM的模型,通过生成由3D系数向量构成的3D面部图像来定位精确的面部结构。另外,存在较大的面部姿势变化,例如平面内和平面外旋转。需要大量数据来学习随面部姿势而变化的代表特征。为了解决这个问题,灵感来自3DMM系数可以通过简单的数学推导[2,6]来分析姿势变化的模型,并且不需要大量的训练集。因此,我们利用基于ResNet-50的面部渲染网络来回归面部系数向量。ResNet-50的输出是x =(α;β;δ;γ;ρ)2 R239
的代表性特征向量,其中 α ∈ 80 \alpha \in {^{{\rm{80}}}} α80 β ∈ 64 \beta \in {^{{\rm{64}}}} β64 δ ∈ 80 \delta \in {^{{\rm{80}}}} δ80 γ ∈ 9 \gamma \in {^{\rm{9}}} γ9 ρ ∈ 6 \rho \in {^{\rm{6}}} ρ6分别表示身份,面部表情,纹理,照度和面部姿势[6]。

根据Morphable模型[1],我们将人脸系数转换为人脸图像的3D形状S和纹理T 在这里插入图片描述在这里插入图片描述
其中 S ‾ \overline S S T ‾ \overline T T分别是面部形状和纹理的平均值。 B t {B_t} Bt B i d {B_{id}} Bid B e x p {B_{exp}} Bexp表示通过PCA方法计算的纹理,同一性和表达的基本向量。我们通过假设人脸为朗伯表面来建立照明模型,并使用球谐函数(SH)[27]估计场景照明,以得出照明系数 γ ∈ 9 \gamma \in {^{\rm{9}}} γ9。 3D面部姿态 ρ ∈ 6 \rho \in {^{\rm{6}}} ρ6由旋转 R ∈ S O ( 3 ) R \in SO\left( 3 \right) RSO(3)和平移 t ∈ 3 t \in {^{\rm{3}}} t3表示。

为了稳定渲染的面部,基于配对的训练集,提出了用于3D面部重建的修改后的L2损失函数
在这里插入图片描述

其中j是成对的图像索引,L是训练对的总数,i和M分别表示像素索引和面部区域,I代表清晰的图像,A是通过训练贝叶斯获得的基于肤色的注意蒙版高斯混合模型的分类器[6]。另外,x表示LR(输入)图像,B(x)表示通过ResNet-50将输入x作为输入获得的回归系数,最后R表示使用3D系数B(x)渲染的图像。渲染是投影构造的过程3D面以回归的姿势和照明朝向2D图像平面。我们使用ResNet-50网络,通过将最后一个完全连接的层修改为239个神经元(相同数量的系数参数)来回归这些系数。
在这里插入图片描述

系数特征变换。我们的3D人脸先验包括两个部分:一个直接来自渲染的人脸区域(即RGB输入),另一个来自系数参数的特征转换。系数参数α; β; δ; γ; ρ分别表示身份,面部表情,纹理,照明和面部姿势先验。系数特征变换过程描述如下:首先,通过将多余元素设置为零,将同一性,表情,纹理以及照明和面部姿势的元素级联(γ+ρ)的系数重塑为四个矩阵。然后,通过零填充将这四个矩阵扩展为与LR图像相同的大小(16×16或32×32),然后缩放为间隔[0,1]。最后,将系数特征与所渲染的面部图像的先验级联。

3.3 空间注意模块
为了利用3D先验渲染的人脸,我们提出了一个空间注意模块(SAM)来掌握人脸成分和人脸身份的精确位置。拟议的SAM由三部分组成:空间特征变换块,残留通道注意块和高档块。

空间特征转换块。在卷积层之后,将3D人脸先验(渲染的人脸和系数特征)导入空间注意变换块[34]。空间特征变换层的结构如图4所示。SFT层学习映射函数Θ,该函数根据先验(例如分割概率)提供调制参数对(µ;ν)。在此,将3D脸部先验作为输入。通过在空间上对每个中间特征图应用仿射变换,可以通过调制参数对来自适应控制SFT层的输出。具体来说,中间变换参数(µ;ν)是通过映射函数从先验中得出的:
(µ;ν)=Θ(); (4)

根据变换参数通过缩放和移动特征图来修改中间特征图:
SF T(Fjμ;ν)=μ⊗F+ν; (5)

其中F表示特征图,⊗表示逐元素相乘。在此步骤中,SFT层将执行空间方向的转换。

剩余频道注意块。注意机制可以看作是一种指导,可将可用处理资源的分配偏向于输入中信息最丰富的部分[13]。因此,提出了渠道机制,以探索信息量最大的组成部分以及渠道之间的相互依赖性。受残余信道网络[42]的启发,注意力机制由一系列残余信道注意力块(RCAB)组成,如图2所示。对于第b个块,RCAB的输出Fb可通过以下方式获得:
Fb = Fb-1 + Cb(Xb)·Xb; (6)

其中 C b C_b Cb表示频道关注功能。 F b − 1 F_{b-1} Fb1是块的输入,而 X b X_b Xb由两个堆叠的卷积层计算得出。高档块是渐进式反卷积层(也称为转置卷积)。

4 实验结果
为了评估提议的面部超分辨率网络的性能,我们定性和定量地将我们的算法与9种最先进的超分辨率和面部幻觉方法进行了比较,这些方法包括:超深超分辨率网络(VDSR)[17],非常深的残差信道注意网络(RCAN)[42],残差密集网络(RDN)[43],超分辨率卷积神经网络(SRCNN)[7],变换性判别自编码器(TDAE)[38],基于小波的CNN用于多尺度人脸超分辨率(Wavelet-SRNet)[14],深端到端可训练人脸SR网络(FSRNet)[4],人脸SR生成对抗网络(FSRGAN)[4]并包含2D面部界标热图和解析图,以及使用2D界标热图先验通过脸部对齐网络(PSR-FAN)[16]进行的人脸超分辨率网络。我们使用作者的开源实现,并在同一数据集上训练所有网络以进行公平比较。为简单起见,我们将所建议的网络称为由3D先验技术或SAM3D指导的空间注意模块。另外,为了演示所提出的3D面部先验的插入特性,我们通过将3D面部先验嵌入到SRCNN的基本骨干中作为额外的输入通道,提出了SRCNN + 3D和VDSR + 3D的两种模型[7]和VDSR [17]。实施代码将向公众公开。在补充材料中可以找到更多的分析和结果。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.1 数据集和实施细节
CelebA [25]和Menpo [40]数据集用于验证算法的性能。训练阶段使用CelebA数据集的162,080张图像。在测试阶段,将使用CelebA测试集的40,519张图像以及来自Menpo数据集的大姿态变化测试集。 Menpo的每个面部姿势测试集(左,右和半额叶)分别包含1000张图像。我们遵循现有的面部SR方法(例如[16],[4],[35],[36])的协议,通过双三次降采样方法生成LR输入。 HR地面图像是通过中心裁剪面部图像,然后将其调整为128×128像素而获得的。 LR脸部图像是通过将HR地面实况下采样到32×32像素(×4比例)和16×16像素(×8比例)而生成的。在我们的网络中,ADAM优化器的批处理大小为64,用于训练,输入图像作为RGB通道在中心裁剪。初始学习率为0.0002,每50个时间除以2。使用NVIDIA Titan X GPU,整个培训过程需要2天。

4.2 定量结果
表1列出了使用SNRA和CelebA测试集的结构相似性(SSIM)分数对网络进行的定量评估。此外,针对大脸部姿势变化分析该方法的性能和稳定性,三种情况对应表2列出了Menpo测试数据的不同脸部姿势(左,右和半额叶)。

CelebA测试:如表1所示,VDSR + 3D(由建议的3D面部先验技术指导的基本VDSR模型[17])取得了明显更好的结果(比其余最佳方法高1 dB,比基本VDSR方法高2 dB即使对于RDN和RCAN之类的大规模参数方法也是如此。值得注意的是,VDSR + 3D的性能仍然比拟议的SAM3D算法稍差。这些结果表明,提出的3D先验对面部超分辨率的性能提高(平均提高1.6 dB)做出了重大贡献。与基于2D先验的方法(例如FSRNet和PSR-FAN)相比,我们的算法性能更好(比PSR-FAN高2.73 dB,比FSRNet高2.78 dB)。

Menpo测试:表2中报告了具有较大姿势变化的数据集上的定量结果,这是为了验证所提出的网络针对面部姿势变化的有效性和稳定性。表2列出了我们的方法(SAM3D)是优于其他方法的最佳方法,VDSR +与4倍的基本VDSR方法相比,3D还实现了1.8 dB的改进。与2D热图和解析地图先验相比,基于3D面部先验的方法仍然是提高SR性能的最有效方法。
在这里插入图片描述
在这里插入图片描述

4.3 定性评估
图5和图6分别显示了我们的方法在不同放大倍率(×4和×8)下的定性结果。可以观察到,我们提出的方法可以恢复具有更精细成分细节的清晰面部(例如,鼻子,眼睛和嘴巴)。如图1和7所示,大多数方法的输出(例如PSR-FAN,RCAN,RDN和Wavelet-SRNet)在诸如眼睛和鼻子的面部组件周围包含一些伪像,尤其是在部分遮挡面部图像时。添加渲染的面部先验后,我们的结果显示了更清晰,更锐利的面部结构,没有任何重影伪影,这说明了拟议的3D先验可帮助网络理解空间位置和整个面部结构,并在很大程度上避免了伪影和面部属性的重大变形这在面部界标先验中很常见,因为注意力仅施加于面部界标的不同点。

在这里插入图片描述
5 分析与讨论
消融研究:在本节中,我们将进行消融研究,以证明每个模块的有效性。我们在×8尺度测试数据上的PSNR和SSIM方面比较了使用和不使用渲染的3D人脸先验和空间注意模块(SAM)的拟议网络。如图8(b)和(f)所示,不使用渲染的面部和SAM的基线方法往往会生成无法捕获清晰结构的模糊面部。图8(c)和(g)显示了添加3D渲染的先验后的面部结构更加清晰和清晰。通过同时使用SAM和3D先验,图8(d)和(h)的视觉质量得到了进一步改善。表1和表2之间(VDSR,我们的VDSR + 3D和我们的SAM3D)之间的定量比较也说明了所提出的渲染先验和空间关注模块的有效性。

为了验证先验3D面部结构在收敛性和准确性方面的优势,设计了三种不同的配置:基本方法(即SRCNN [7]和VDSR [17]);结合了3D面部先验的基本方法(即SRCNN + 3D和VDSR + 3D);提出的使用空间注意模块和3D先验(SAM3D)的方法。绘制了每个配置沿时期的验证精度曲线,以显示每个块的有效性。先验容易插入任何网络。它们仅略微增加了参数数量,但显着提高了算法的准确性和收敛性,如补充图3所示。与不使用面部先验的基线方法相比,结合了面部先验先验的SRCNN和VDSR的基本方法倾向于避免在关键面部组件周围出现一些伪影,并生成更锐利的边缘。通过添加空间注意模块,它可以帮助网络更好地利用先验条件,并轻松地生成更清晰的面部结构,如图9所示。

真实世界图像的结果:对于真实世界LR图像,我们在补充表1和图1中对WiderFace(x4)数据集中的500张LR脸部进行了定量和定性分析。

型号大小和运行时间:我们在具有Intel Xeon W-2123 CPU和NVIDIA TITAN X GPU的同一服务器上评估了建议的方法和STOA SR方法。我们建议的嵌入3D先验的SAM3D重量更轻,耗时更少,如补充图2所示。

6 结论
在本文中,我们提出了一个人脸超分辨率网络,该网络融合了呈现的人脸和多维知识的新颖3D人脸先验。在3D渲染分支中,我们提出了面部渲染丢失问题,以鼓励提供高质量的引导图像,以提供面部组件和其他分层信息(即表情,照明和面部姿势)的清晰空间位置。与现有的2D面部先验相比,其注意力集中在可能导致面部变形的地标的不同点上,我们的3D先验是显式的,可见的和高度逼真的,并且可以大大减少面部伪像的发生。为了很好地利用3D先验并考虑先验和输入之间的通道相关性,我们采用了空间特征变换和注意块。全面的实验结果表明,与SOTA方法相比,该方法具有更高的性能,并大大减少了伪影。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值