Beyond Face Rotation-CSDN博客

Beyond Face Rotation: Global and Local Perception GAN for Photorealistic and Identity Preserving Frontal View Synthesis

尽管已经在几个基准数据集上实现了超过人的性能[25]，但姿势变化仍然是许多实际应用场景的瓶颈。现有的解决姿势变化的方法可以分为两类。一类尝试采用手工制作或学习的位姿不变特征[4,25]，而另一类则采用合成技术从大角度人脸图像中恢复正面视图图像，然后使用恢复后的人脸图像进行人脸识别[41,42]。

**相比之下，深度学习方法通常使用池操作处理位置变化，并使用三重损失[25]或对比损失[28]来确保对非常大的类内变化的不变性。**然而，由于不变性和可分辨性之间的折衷，这些方法不能有效地处理大姿态情况。

对于第二类，早期的正面视图合成工作通常利用3D几何变换来呈现正面视图，首先将2D图像与一般的[12]或特定于身份的[29,40]3D对齐模型。这些方法善于规范化小姿态人脸，但是由于严重的纹理损失，在较大的人脸姿态下，它们的性能会下降。近年来，人们提出了基于深度学习的数据驱动人脸恢复方法。例如，Zhu等人。[42]建议在学习估计正面视图的同时，分离身份和姿势表示。虽然他们的结果令人鼓舞，但合成的图像有时缺乏精细的细节，在大姿态下往往会变得模糊，因此他们只使用中间特征进行人脸识别。合成的图像仍然不足以执行其他面部分析任务，如取证和属性估计。

此外，从优化的角度看，从不完全观测面恢复正面是一个不适定或欠定的问题，如果不考虑先验知识或约束条件，该问题存在多个解。因此，恢复结果的质量在很大程度上依赖于训练过程中利用的先验或约束。以往的工作[15,38,41,42]一般采用两两监督的方式，在培训过程中很少引入约束，容易产生模糊的效果。

当人类试图进行一个视图合成过程时，我们首先根据我们的先验知识和观察到的轮廓推断出正面的整体结构（或草图）。然后我们的注意力转移到将填写所有面部细节的局部区域。受此启发，我们提出了一种具有两条路径的深度结构（TP-GAN）来进行正面合成。

这两条路径分别侧重于全局结构的推断和局部纹理的变换。然后将它们对应的特征映射进行融合，以进一步生成最终合成。我们还将前面脸分布的先验知识与生成性对抗网络（GAN）结合起来，使恢复过程受到很好的约束[9]。GAN在二维数据分布建模方面的突出能力显著地提高了许多不适定的低层视觉问题，如超分辨率[17]和修复[21]。**特别是，从人脸的对称结构中汲取灵感，提出了一种对称损失来填充遮挡部分。**此外，为了忠实地保持个体最显著的面部结构，除了像素级L1损失之外，我们在紧凑的特征空间中采用感知损失[14]。融合身份保持损失对于一个可靠的合成是至关重要的，并且极大地提高了它在人脸分析任务中的应用潜力。我们在图1的上半部分（每个元组的左侧）显示了由TP-GAN生成的一些样本。

在这里插入图片描述

图1。用TP-GAN进行正视图合成。上半部分显示90°剖面图像（中间）及其相应的合成和地面真实正面。我们邀请读者猜测哪边是我们的综合结果（请参阅第二节）。答案是1）。下半部分分别显示90度、75度和45度剖面的合成正面视图。

本文的主要工作有三个方面：1）提出了一种human-like的全局和局部感知GAN结构，用于由单个图像合成正面图像，即使在非常大的姿态下也能合成真实感和保身份的正面图像。2）结合数据分布的先验知识（对抗性训练）和人脸的领域知识（对称性和保持身份的损失），准确地恢复三维物体投影到二维图像空间中所固有的丢失信息。3）我们证明了一个“通过生成的识别”框架的可能性，并且在大姿态下的识别效果优于最新的识别结果。虽然已有人提出了一些用于人脸合成的深度学习方法，但我们的方法是首次尝试对具有合成人脸的识别任务有效。

2. Related Work

2.1. Frontal View Synthesis

最近，研究人员利用卷积神经网络（CNN）进行联合表示学习和视图合成[15，38，41，42]。具体来说，Yim等人。[38]提出了一种多任务CNN预测旋转图像的方法。朱等人。[41，42]开发新的架构和学习目标，以便在估计正面视图时分离身份和姿势表示。虽然将合成的图像直接用于人脸分析任务要方便得多，但以往的方法大多采用中间特征进行人脸识别，因为它们不能忠实地生成保持身份的合成。

2.2. Generative Adversarial Network (GAN)

GAN[9]是深生成模型研究中最重要的改进之一[16,23]，受到了深学习和计算机视觉界的广泛关注。最小-最大两人博弈提供了一种简单而强大的方法来估计目标分布并生成新的图像样本[6]。利用其分布建模能力，GAN可以鼓励生成的图像向真实图像流形移动，从而生成具有合理高频细节的真实感图像。

最近，改进的GAN体系结构，特别是条件GAN[19]已经成功地应用于视觉任务，如图像修复[21]、超分辨率[17]、样式转换[18]、人脸属性操作[26]甚至数据增强以增强分类模型[27,39]。GAN的这些成功应用促使我们开发基于GAN的前视合成方法。

3. Approach

正面视图合成的目的是从不同姿势下的面部图像如侧面图 $I^P$ 恢复具有真实感和身份保持的正面视图图像 $I^F$ 。要训练这样的网络，在训练阶段需要来自多个身份y的对应的 ${I^F,I^P\}$ 对。

我们的目标是学习一个综合函数，它可以从任何给定的轮廓图像中推断出相应的正面视图。具体来说，我们用双通路CNN $G_{\theta_G}$ 对综合函数进行建模， $\theta_G$ 为参数。每个路径包含一个编码器和一个解码器，用 $\{G_{\theta^g_E},G_{\theta^g_D}\}$ 和 $\{G_{\theta^l_E},G_{\theta^l_D}\}$ 其中g和l分别代表全局结构通路和局部纹理通路。在全局路径中，the bottleneck layer，输出为 $G_{\theta^g_E}$ ，通常用于分类任务[37]用交叉熵损失 $L_{cross\_entropy}$ 。

网络的参数 $G_{\theta_G}$ 通过最小化特定设计的synthesis loss $L_{syn}$ 和前面提到的 $L_{cross-entropy}$ 来优化。对于一个包含N对的训练集 $\{I^F_n,I^P_n\}$ ，优化问题可以表示为:

在这里插入图片描述

$\alpha$ 是一个加权参数， $L_{syn}$ 定义为若干损失的加权和，这些损失共同约束图像驻留在所需的流形中。我们将把所有单项损失函数的详细描述推迟到第3.2节。

3.1. Network Architecture

3.1.1 Two Pathway Generator

在这里插入图片描述

图2。TP-GAN的总体框架。生成器包含两个路径，两个路径分别处理全局或局部转换。该判别器区分了合成正面图和ground-truth正面图。详细的网络结构可以在补充材料中找到。

TP-GAN的总体结构如图2所示。与以往的方法[15,38,41,42]不同，以往的方法通常采用单一网络对合成函数进行建模，我们的生成器 $G_{\theta_G}$ 有两个支路，一个全局网络 $G_{\theta g}$ 处理全局结构，landmark located patch网络 $G_{\theta^l_i},i\in\{0,1,2,3\}$ 关注四个facial landmarks周围的局部纹理。

我们并不是第一个采用双路径建模策略。实际上，对于2D/3D局部纹理扭曲[1240]方法来说，这是一个非常流行的例程。与人类的认知过程类似，它们通常将人脸的标准化分为两步，第一步将人脸与二维或三维模型全局对齐，第二步将局部纹理扭曲或渲染到全局结构。此外，Mohammed等人。[20] 将全局参数化模型与局部非参数化模型相结合进行人脸合成。

通过一个侧脸 $I^P$ 合成正脸 $I^F$ 是一个高度非线性的变换。由于滤波器在人脸图像的所有空间位置上都是共享的，因此我们认为仅使用全局网络无法学习既适合旋转人脸又适合精确恢复局部细节的滤波器。因此，我们将传统方法中双通路结构的成功转移到一个基于深度学习的框架中，并引入类人双通路产生器进行前视合成。

如图2所示， $G_{\theta g}$ 由下采样编码器 $G_{\theta^g_E}$ 和上采样解码器 $G_{\theta^g_D}$ 组成，为了实现多尺度特征融合，引入了额外的skip层。中间的瓶颈层输出一个256维的特征向量 $v_{id}$ ,它用于身份分类，以允许身份保持合成。在这个瓶颈层，如在[30]中，我们将一个100维高斯随机噪声连接到 $v_{id}$ ，以模拟除了姿势和身份之外的变化。

####　3.1.2 Landmark Located Patch Network

The four input patches of the landmark located patch network $G_{\theta^l}$ 是从四个facial landmarks的中心裁剪出来的，如左眼，右眼，鼻尖，嘴中间部分。每个 $G_{\theta^l_i},i\in\{0,1,2,3\}$ 学习一组单独的滤波器，用于将中心裁剪的旋转到其相应的正面视图（for rotating the center-cropped patch to its corresponding
frontal view）（旋转后，面部landmarks仍在中心）。landmark located patch网络的体系结构也基于编解码结构，但没有完全连接的瓶颈层。

为了有效地融合全局和局部路径信息，我们采用了一种直观的特征图融合方法。如图2所示，我们首先将四个局部路径的输出特征张量（多个特征映射）融合到与全局特征张量具有相同空间分辨率的单个特征张量。具体来说，我们将每个特征张量放置在一个“模板标记位置”“template landmark location”，然后引入max-out fusing strategy来减少重叠区域上的stitching artifacts。然后，我们简单地将每个路径的特征张量连接起来产生一个融合的特征张量，然后将其送到连续的卷积层以产生最终的合成输出。

3.1.3 Adversarial Networks

为了在训练过程中结合前面脸分布的先验知识，我们进一步介绍了一个判别器 $D_{\theta_D}$ 来区分真实的正面人脸图像 $I^F$ 和来自合成的正面图像 $G_{\theta_G}(I^P)$ 。我们交替训练 $D_{\theta_D}$ 和 $G_{\theta_G}$ ，以优化以下min-max问题：
在这里插入图片描述

解决这一最小最大问题将不断地推动生成器的输出与训练正面的目标分布相匹配，从而鼓励合成图像驻留在正面的流形中，从而产生具有吸引人的高频细节的真实感合成。我们的 $D_{\theta_D}$ 输出一个2x2的概率图而不是一个标量值，和【27】一样。现在，每个概率值对应于一个特定的区域，而不是整个人脸， $D_{\theta_D}$ 可以特别关注每个语义区域。

3.2. Synthesis Loss Function

在我们的工作中使用的综合损失函数是四个单独损失函数的加权和，我们将在下面的章节中给出详细的描述。

3.2.1 Pixel-wise Loss

我们在多个位置采用pixel-wiseL1损失，以促进多尺度图像内容的一致性:

在这里插入图片描述

具体地说，像素级的损失是在全局、landmark located patch网络的输出以及它们的最终融合输出处测量的。为了便于监督，我们还添加了对 $D_{\theta^g_D}$ 的多尺度输出的约束。虽然这种损失会导致合成结果过于平滑，但它仍然是加速优化和卓越性能的重要组成部分。

3.2.2 Symmetry Loss

对称性是人脸的固有特征。利用该领域知识作为先验知识，对合成图像施加对称约束，可以有效地缓解自遮挡问题，从而大大提高大姿态情况下的性能。具体来说，我们定义了两个空间的对称性损失，即原始像素空间和拉普拉斯图像空间，这两个空间对光照变化具有鲁棒性。人脸图像的对称性损失表现为：

在这里插入图片描述

为了简单起见，我们有选择地翻转输入，使被遮挡的部分都在右侧。此外，只有 $I^{pred}$ 的阻塞部分（右侧）才用对称性损失，即我们显式地将右侧拉近左侧。

$L_{sym}$ 的贡献是双重的，它通过鼓励对称结构生成真实图像，并通过提供附加的反向传播梯度来加速TP-GAN的收敛，以缓解极端姿势的自遮挡。

然而，由于光照的变化或内在的纹理差异，像素值在大多数情况下并不是严格对称的。幸运的是，一个局部区域内的像素差是一致的，并且一个点沿所有方向的梯度在不同的因此Laplacian空间对光照变化的鲁棒性更强，对人脸结构的指示性更强。

3.2.3 Adversarial Loss

识别真实正面图像 $I^F$ 和合成的正面图象 $G_{\theta_G}(I^P)$ 的损失由下式计算：

在这里插入图片描述

$L_{adv}$ 作为一种监督机制，将合成图像推送到多个正视图图像中。它可以防止模糊效果，并产生视觉上令人满意的结果。

3.2.4 Identity Preserving Loss

在开发“基于生成的识别”框架时，在合成正面图像的同时保持身份是最关键的部分。在这项工作中，我们利用最初为保持知觉相似性而提出的知觉损失[14]来帮助我们的模型获得身份保持能力。具体来说，我们根据Light CNN [35]的最后两层的激活来定义身份保持损失：

在这里插入图片描述

其中 $W_i,H_i$ 为last i层的空间维数。在紧凑的深度特征空间中，保持身份的损失使得预测与ground-truth值有很小的距离。由于Light CNN经过预先训练，可以对数万个身份进行分类，因此它可以捕捉最显著的特征或人脸结构进行身份识别因此，完全可以利用此损失来强制执行保留身份的正面视图合成。

$L_{ip}$ 和 $L_{adv}$ 一起用时会有更好的效果。单独使用 $L_{ip}$ 会使结果容易产生令人讨厌的伪影，因为搜索局部最小 $L_{ip}$ 可能会经过位于自然人脸图像流形之外的路径。同时使用 $L_{adv}$ 和 $L_{ip}$ 可以确保搜索位于该流形中，并生成真实感图像。

3.2.5 Overall Objective Function

最终的综合损失函数是上述定义的所有损失的加权和:

$L_{syn}=L_{pixel}+\lambda_1L_{sym}+\lambda_2L_{adv}+\lambda_3L_{ip}+\lambda_4L_{tv}$ (7)

我们还对合成结果施加total variation regularization $L_{tv}$ [14]以减少尖峰伪影。

4. Experiments

Implementation details

我们在所有的实验中都使用128×128×3大小的彩色图像作为输入 $I^P$ 和输出 $I^{pred}=G_{\theta_G}(I^P)$ 。我们的方法是在MultiPIE[10]上进行评估的，MultiPIE[10]是一个大数据集，包含75万多张用于在姿态、光照和表情变化下进行人脸识别的图像。

特征提取网络Light CNN在MS-Celeb-1M[11]上进行训练，并对多图像的原始图像进行微调。我们的网络是用Tensorflow[1]实现的。

TP-GAN的训练时间为一天，批处理大小为10，学习率为10−4。在我们所有的实验中，我们都是根据经验设定 $\alpha=10^{-3},\lambda_1=0.3,\lambda_2=10^{-3},\lambda_3=10^{-3}，\lambda_4=10^{-4}$ 。

4.1. Face Synthesis

以往关于前视合成的大部分工作都是在±60°的姿态范围内解决这一问题。因为通常认为，当姿态大于60°时，很难忠实地恢复正面图像。然而，我们将证明，只要有足够的训练数据和适当的结构和损失函数设计，从非常大的姿态恢复真实感正面视图实际上是可行的。

图4示出了TP-GAN从任何姿势恢复令人信服的保持身份的正面的能力，图3示出了与最先进的面部正面化方法的比较。请注意，TP-GAN的大多数竞争对手不能处理大于45°的姿态，因此，我们只报告其低于30°和45°的结果。

在这里插入图片描述

与同类方法相比，TP-GAN在制作真实感合成时具有较好的保像性。借助Ladv和Lip的先验知识进行数据驱动建模，不仅整个面部结构，而且遮挡的耳朵、脸颊和前额也能以身份一致的方式产生幻觉。此外，如图5所示，它还完美地保留了原始轮廓图像中观察到的面部属性，例如眼镜和发型。

在这里插入图片描述
为了进一步证明多个姿势合成的稳定几何形状，我们在图6中显示来自不同姿势合成的面部的平均图像。来自TP-GAN的平均面保留了更多的纹理细节和较少的模糊效果，在多个合成中显示了稳定的几何形状。注意，我们的方法不依赖任何三维知识进行几何形状估计，推断是通过纯粹的数据驱动学习。

在这里插入图片描述

为了证明我们的模型对野外人脸具有更好的泛化能力，我们使用LFW[13]数据集的图像来测试一个仅在Multi-PIE上训练的TP-GAN模型。如图7所示，尽管所得的色调与来自多个饼图的图像相似，但与诸如[12，40]等最新方法相比，TP-GAN能够忠实地合成具有更精细细节和更好全局形状的LFW数据集中的面部正面视图图像。

在这里插入图片描述

4.2. Identity Preserving Property

为了定量地证明该方法的身份保持能力，我们在两种不同的背景下对多人脸进行了识别。实验首先用Light CNN[35]提取深度特征，然后用余弦距离度量比较Rank-1识别精度。

值得注意的是，虽然已有许多深度学习方法被提出用于前视合成，但它们的合成图像都不能有效地用于识别任务。在最近的一项关于人脸幻觉的研究[34]中，作者表明，直接使用CNN合成的高分辨率人脸图像进行识别肯定会降低性能，而不是提高性能。因此，验证我们的合成结果是否能提高识别性能（即“生成识别”过程是否有效）具有重要意义。

在设置1中，我们遵循[36]中的协议，只使用会话1中的图像。我们包括在20个照明和11个姿势下在±90°范围内具有中性表达的图像。每个受试者使用一个具有正面视图和照明的画廊图像。训练集和测试集之间没有重叠。

表1显示了我们的识别性能以及与现有技术的比较。TP-GAN在各个角度都能获得最佳性能，角度越大，改善越大。与c-CNN Forest[36]相比，我们在大姿态情况下的性能提高了约20%。

在这里插入图片描述