论文笔记：PSGAN

起风了丿

已于 2022-09-26 22:26:38 修改

阅读量1.4k

点赞数

文章标签： pytorch 神经网络深度学习

于 2020-11-11 21:27:28 首次发布

本文链接：https://blog.csdn.net/qq_46688314/article/details/109387803

版权

摘要

（1）在本文中，作者解决了化妆转移任务，该任务旨在将化妆从参考图像转移到源图像。现有方法，但是在姿势和表情差异较大的图像之间进行转换仍然具有挑战性。

（2）现有的方法无法实现可定制的转移，从而无法控制化妆的色度或指定要转移的部位，从而限制了其应用。为了解决这些问题，作者提出了姿势和表情鲁棒的空间感知（spatial-aware）GAN（PSGAN）。

（3）它首先利用化妆蒸馏网络（Makeup Distill Network）将参考图像的妆分解为两个空间感知的妆矩阵。然后，引入“精细化妆变形模块”以指定源图像中像素的妆容如何从参考图像中变形。

（4）通过妆矩阵和源图像，可以使用“化妆应用网络（Makeup Apply Network）”执行化妆转移。对于即使存在较大的姿势和表情差异，我们的PSGAN不仅可以实现最新的结果，而且还可以执行部分和阴影可控的化妆转移。作者还收集了一个数据集，其中包含具有各种姿势和表情的面部图像以供评估。

1. Introduction

化妆转移任务，旨在将化妆从任意参考图像转移到源图像。大多数现有的化妆转换方法基于生成对抗网络（GAN）。它们通常将face parsing maps and/or facial landmarks用作预处理步骤以方便后续处理，并采用CycleGAN的框架，该框架针对未配对的图像集进行训练，即非化妆图像并带有化妆图片。

但是，现有方法主要有两个局限性。

首先，它们仅在具有中性表情的正面面部图像上工作良好，因为它们没有专门设计的模块来处理图像的未对准和正面图像的过拟合。在实际应用中，理想的方法应该是姿势和表情的鲁棒性，即使源图像和参考图像显示不同的姿势和表情，该方法也能够产生高质量的结果。
其次，现有方法无法执行可定制的化妆转移，因为它们将化妆样式编码为低维向量时会丢失空间信息。理想的化妆转移方法需要能够实现部分且阴影可控的化妆转移（partial and shade-controllable makeup transfer）。 部分转移表示分开地转移指定的脸部区域的化妆品，例如眼影或口红。 阴影可控的转移意味着转移后的妆容的阴影可从轻到重均可控制。

因此作者提出了一种新颖的姿势和表情健壮的空间感知（Pose and expression robust Spatial-aware GAN）GAN，它由一个化妆蒸馏网络（MDNet），一个精细化妆变形（AMM）模块和一个化妆应用网络（MANet） 组成。

与以前的将两个图像简单地输入到网络或重新组合化妆的lantent code和身份latent code以执行转换的方法不同，受之前的迁移方法的影响，PSGAN设计为仅通过一次缩放和移动特征图就可以转移化妆。

与一般的样式转移相比，化妆品转移更加困难，因为人类的感知系统对脸上的伪影非常敏感。此外，化妆风格在每个面部区域都包含细微的细节，而不是普通的样式。
为此，化妆蒸馏网络（MDNet）模块 将化妆从参考图像分解为两个化妆矩阵，即相同的系数矩阵 $γ$ 和偏差矩阵 $β$ 都具有视觉特征的空间尺寸。这些矩阵嵌入了化妆信息，并用作移动和缩放参数。
然后，通过 精细化妆变形（AMM）模块对 $γ$ 和 $β$ 进行变形并使其适应源图像，该模块将计算出注意矩阵A以生成适应的化妆矩阵 $γ^′$ 和 $β^′$ 。AMM模块利用人脸解析地图和人脸边界标来构建源图像和参考图像之间的像素级对应关系，从而解决了人脸对齐问题。
最后，化妆应用网络（MANet） 通过使用 $γ^′$ 和 $β^′$ 对视觉特征进行逐像素相乘和相加来进行化妆转移。

由于已经以空间感知的方式提炼了化妆风格，因此可以根据面部解析结果以像素为单位应用蒙版来实现部分转移。
在这里插入图片描述

图1

图1显示了：我们的模型允许用户控制化妆的阴影和面部部位的转移。左侧的第一行显示仅从参考转移部分化妆样式的结果。第二行显示可控制阴影的结果。而且，我们的方法可以在具有不同姿势和表情的图像之间执行化妆转移，如图中右侧所示。

例如，在图1的左侧中，可以将唇彩，皮肤和眼影分别从参考图像转移到源图像。同时可以通过将化妆矩阵的权重乘以[0，1]内的系数来实现阴影可控转移。而且，AMM模块有效地帮助了姿势和表情鲁棒结果的生成，如图1的右侧所示。

本文中做出以下贡献：

PSGAN是第一个同时实现部分，阴影可控以及姿势/表情稳健的妆容转移的方法，这有助于在实际环境中的应用。
引入了MDNet，以将化妆与参考图像分离为两个化妆矩阵。具有空间意识的化妆矩阵可实现灵活的局部和阴影可控的转换。
提出了一种AMM模块，该模块可将化妆矩阵自适应地变形为源图像，从而使姿势和表情鲁棒地转换。
收集了一个新的Makeup-Wild数据集，其中包含具有不同姿势和表情的图像，以进行更好的评估。

2. Releated Work

2.1 Makeup Transfer

BeautyGAN 首先提出了具有双重输入和输出的GAN框架，用于同时进行化妆品转移和卸妆。他们还引入了化妆损失，该损失与面部不同部分的颜色直方图相匹配，以进行实例级别的化妆转移。
Beauty Glow 在Glow 框架上提出了类似的想法，并分解了化妆品部分和非化妆品部分。
PairedCycleGAN 使用了一个附加的判别器，使用通过将参考人脸扭曲到源人脸而生成的伪迁移图像来指导化妆迁移。
LADN 利用额外的多个重叠局部标识符进行戏剧性的妆容迁移。

但是，上述方法通常无法迁移在野生环境中的图像，并且无法精确且部分地调整迁移，这限制了它们的应用，例如视频中的化妆传输。

2.2 Style Transfer

从CNN提取出一些层，将其分离并重新组合用来合成图像。开发了一些方法来解决快速样式转移问题。一些方法已经可以解决快速样式转移问题。
Normalization在样式迁移网络中有重要作用，并通过conditional instance normalization实现了快速的样式迁移。然而他们的方法只能传递一组固定的样式，而不能适应任意新样式。
adaptive instance normalization (AdaIN), 该规范化将内容特征的均值和方差与样式特征的均值和方差对齐，并实现了任意样式转移。

作者提出的spatial-aware makeup transfer作用于每个像素，而不是从参考图像中学习到一个通用的样式。

2.3 Attention Mechanism

attention mechanism 首先在自然语言处理领域中被提出，该机制利用 self-attention module通过关注所有位置并在embedding space中获取它们的加权平均值，来计算序列（例如句子）中某个位置的反馈。
后续有人提出了non-local network，它是将某个位置的响应计算为所有位置的特征的加权和。

作者通过计算两个特征图之间的attention来探索注意力模块的应用。与仅考虑视觉外观相似性的non-local network不同，作者提出的AMM模块通过考虑视觉外观和位置来计算另一个特征图的加权和。

3. PSGAN

3.1 Formulation

令 $X$ 和 $Y$ 为源图像域和参考图像域。此外，我们利用 ${x^n\}_{n = 1，...，N}$ ， $x^n∈X$ 和 ${y^m\}_{ m = 1，...，M}$ ， $y^m∈Y$ 分别表示两个域的示例。不需要配对的数据集，即源图像和目标图像具有不同的身份。 我们假设x是根据分布 $P_X$ 从X采样，y是根据分布 $P_Y$ 从Y采样。PSGAN学习了转换函数 $G:\{x，y\}→\tilde{x}$ ，其中，转换的图像 $\tilde{x}$ 具有参考图像 $y$ 的化妆风格，并保留了源图像 $x$ 的身份。

3.2 Framework

Overall

PSGAN的框架如图2（A）所示。
在这里插入图片描述

图2

图2显示了:(A) PSGAN框架的插图。 MDNet从参考图像中提取化妆基质。 AMM模块将调整后的化妆矩阵应用于MANet第三个瓶颈的输出特征图，以实现化妆转移。（B）AMM模块的示意图。具有136（68×2）通道的绿色块表示像素的相对位置特征，然后将其与C通道视觉特征连接在一起。因此，通过相对位置和视觉外观的相似性为源图像中的每个像素计算注意力图。自适应的化妆矩阵 $γ^′$ 和 $β^′$ 由AMM模块生成，然后被相乘并逐个添加到MANet特征图上。图中的橙色和灰色块表示带妆和不带妆的视觉特征。（C）attention maps图像中的特定红点。请注意，我们仅计算属于同一面部区域的像素的注意值。因此，在参考图像的嘴唇和眼睛上没有响应值。

从数学上讲，它被公式化为 $\tilde{x}= G(x,y)$ 。它可以分为三个部分。
（1）化妆蒸馏网络（Makeup distill networks）：MDNet从参考图像y中提取化妆样式，并将其表示为两个化妆矩阵γ和β，它们的高度和宽度与特征图相同。
（2）精细化妆变形模块（AMM）：由于源图像和参考图像的表达和姿势可能存在较大差异，因此提取的化妆矩阵无法直接应用于源图像x。因此，作者提出了一个AMM模块，通过考虑源图像和参考图像像素之间的相似性，将这两个化妆矩阵变形为两个新的矩阵 $γ^′$ 和 $β^′$ ，这些新矩阵适用于源图像。
（3）化妆适应网络（Makeup apply network.）：将自适应化妆矩阵 $γ^′$ 和 $β^′$ 应用于MANet的bottleneck，以逐像素相乘和加法在像素级指导下执行化妆转移。

3.2.1 Makeup distill network

MDNet 采用了（starGAN）中使用的「编码器-瓶颈」(encoder-bottleneck)架构，没有解码器部分。它可从内在的面部特征（如人脸形状、眼睛大小）解离出与妆容有关的特征（如唇彩、眼影）。
与妆容相关的特征被表示为两个妆容矩阵 $γ$ 和 $β$ ，它们再被用于通过像素级的操作实现妆容迁移。如图 2(B) 所示，将MDNet $V_y∈R^{C×H×W}$ 的输出特征图馈送到两个1×1卷积层中，以生成 $γ∈R^{1×H×W}$ 和 $β∈R^{1×H×W}$ ，其中 C，H和W是特征图的通道数，高度和宽度。

3.2.2 Attentive makeup morphing module

由于源图像和参考图像可能具有不同的姿势和表达式，因此获得的空间感知 $γ$ 和 $β$ 无法直接应用于源图像。提出的AMM模块计算一个注意力矩阵 $A∈R^{HW×HW}$ 来指定源图像x中的像素如何从参考图像y中的像素变形，其中 $A_{i，j}$ 表示图像x中第i个像素 $x_i$ 与图像y中第j个像素 $y_j$ 之间的attentive value。
直观上，应该在脸部上具有相对位置相似的像素之间迁移妆容，并且这些像素之间的固定值应较高。例如，应从参考图像y的相应唇彩区域中采样得到迁移后的结果 $\tilde{x}$ 的唇彩区域。为了描述相对位置，我们将面部标志作为锚点。像素 $x_i$ 的相对位置特征由 $p_i∈R^{136}$ 表示，反映在像素 $x_i$ 与68个面部标志之间的坐标差中，该坐标由下面公式计算得到：

其中 $f (\cdot)$ 和 $g (\cdot)$ 表示在x和y轴上的坐标， $l_i$ 表示由2D面部界标检测器获得的第i个面部界标，在计算 $p_i$ 时用作锚点。为了处理在图像中占据不同大小的脸部，我们在计算注意力矩阵时将 $p$ 除以其two-norm（即 $\frac {P} {||P||}$ ）
此外，为了避免对具有相似相对位置但语义不同的像素进行不合理的采样，我们还考虑了像素之间的视觉相似性（例如 $x_i$ 和 $y_j$ ），它们分别表示为从MANet和MDNet第三个bootleneck中提取的 $v_i$ 与 $v_j$ 之间的相似性。为了使相对位置成为首要考虑因素，我们在计算 $A$ 时将视觉特征乘以权重。然后，调整相对位置特征的大小，并将其与沿通道维度的视觉特征连接起来。
如图2（B）所示，通过考虑视觉外观和相对位置的相似性，可以通过以下方式计算出attention value $A_{i，j}$ ：

其中[·，·]表示级联运算， $v∈R^C$ 和 $p∈R^{136}$ 分别表示视觉特征和相对位置特征，w是视觉特征的权重。 $Ⅱ (\cdot)$ 是一个指标函数，如果内部公式为true，则其值为1。 $m_x，m_y∈\{0，1，. . . ，N -1\} ^{H×W}$ 是源图像x和参考图像y的面部解析图，其中N代表面部区域的数量（在我们的实验中N为3，包括眼睛，嘴唇和皮肤），混合 $m^i_x$ 和 $m^j_y$ 确定 $x_i$ 和 $x_j$ 所属的面部区域。注意，通过应用指示符函数 $Ⅱ (\cdot)$ ，我们仅考虑属于相同面部区域的像素，即 $m^i_x$ = $m^j_y$ 。
给定源图像中鼻子左下角标记为红色的特定点，图2（C）的中间图像通过重塑注意力矩阵 $A_i,:∈ R^{1×HW}$ 的特定行至 $H \times W$ 来显示其attention map 。可以看到只有鼻子左上角附近的像素具有较大的值。应用softmax之后，注意力值变得更加集中。这验证了作者提出的AMM模块能够定位语义相似的像素用来参加。
我们将注意力矩阵A乘以 $γ$ 和 $β$ ，得到变形的化妆矩阵 $γ^′$ 和 $β^′$ 。更具体地，矩阵 $γ^′$ 和 $β^′$ 由下式计算：

其中i和j是x和y的像素索引。之后，将矩阵 $γ^′∈R^{1×H×W}和β^′∈R^{1×H×W}$ 进行复制并沿通道维度扩展，以生成代数张量 $T^′∈R^{C×H×W}$ 和 $B^′∈R^{C×H×W}$ ，这将是MANet的输入。

3.2.3 Makeup apply network

MANet利用与（starGAN）中使用的类似的「编码器-瓶颈-解码器」(encoder-bottleneck-decoder)架构。
如图2（A）所示，MANet的编码器部分与MDNet共享相同的体系结构，但它们不共享参数。在编码器部分，使用（Instance Normalization ,IN）不带有affine parameters，使得特征图成为正态分布。
在bottleneck部分，将AMM模块获得的变形妆容Tensor $T^′$ 和 $B^′$ 应用于源图像特征图 $V_x∈R^{C×H×W}$ 。迁移的特征图 $V_x^′$ 的激活值由下式计算：

该公式给出了妆容转换的函数。然后将更新的特征图 $V_x^′$ 馈送到MANet的后续解码器部分，以生成转换的结果。

3.3 Objective Function

3.3.1 Adversarial loss

作者对源图像域X和参考图像域Y使用两个判别器 $D_X$ 和 $D_Y$ ，它们试图区分生成的图像和真实的图像，从而帮助生成器合成真实的输出。
因此，用于判别器和生成器的对抗损失 $L_{adv}^D$ ， $L_{adv}^G$ 可通过下式计算：

3.3.2 Cycle consistency loss

由于缺乏三元组数据（源图像，参考图像和转换的图像），我们以无监督的方式训练网络。在这里，我们介绍了(cyclegan)提出的循环一致性损失。我们使用L1损失约束重建图像，并将循环一致性损失 $L_{cyc}^G$ 定义为:

3.3.3 Perceptual loss

迁移化妆风格时，迁移的图像需要保持个人身份。我们没有直接在像素级别上测量差异，而是使用在ImageNet上经过预训练的VGG-16模型来比较源图像和隐藏层中生成的图像的activations。令 $F_l(·)$ 表示VGG-16模型的第l层的输出。我们引入的感知损失 $L_G^{per}$ ，以使用L2损失来衡量它们的差异：
在这里插入图片描述

3.3.4 Makeup loss

为了给化妆转移提供粗略的指导，我们利用(Instance-level facial makeup transfer with deep generative adversarial network. In ACM MM, 2018.)提出的makeup loss。
具体来说，我们分别对x和y的相同面部区域执行直方图匹配，然后重新组合结果，表示为 $H M (x ， y)$ 。作为一种伪造的ground truth， $H M (x ， y)$ 保留x的身份，并且与y具有相似的颜色分布。然后我们将补妆损失 $L^{make}_G$ 作为粗指导 :

3.3.5 Total loss

我们方法的判别器和生成器的损失 $L_D$ 和 $L_G$ 可以表示为:
在这里插入图片描述
其中 $λ_{adv}$ ， $λ_{cyc}$ ， $λ_{per}$ ， $λ_{make}$ 是权衡多个目标的权重。

4. Experiments

4.1. Data Collection

由于现有的化妆数据集仅由具有中性表情的正面人脸图像组成，因此作者收集了一个新的Makeup-Wild数据集，其中包含具有各种姿势和表情以及复杂背景的面部图像，以便在实际环境中测试方法。我们从Internet收集数据，然后手动删除正面或中性表情的图像。之后，我们将图像裁剪并调整为256×256分辨率，并且没有对齐。最终，收集403张带有化妆的图像和369张非化妆图像，以形成Makeup-Wild数据集。

4.2. Experimental Setting and Details

我们使用MT（Makeup Transfer）数据集的训练集训练我们的网络，并在MT数据集和Makeup-Wild数据集的测试部分进行测试。 MT数据集包含1,115个非化妆图像和2,719个带化妆图像的图像，这些图像大多对齐良好，分辨率为361×361，并具有相应的面部解析结果。我们遵循（Instance-level facial makeup transfer with deep generative adversarial network. In ACM MM, 2018.）的分割策略来形成训练/测试集，并在MT数据集的测试集中进行正面人脸实验，因为测试集中的示例是对齐良好的正面人脸图像。为了进一步证明PSGAN处理姿势和表情差异的效率，我们使用Makeup-Wild数据集作为额外的测试集。请注意，我们仅使用MT数据集的训练部分来训练我们的网络，以进行公平比较。

对于所有实验，我们将图像调整为256×256，并利用VGG-16的relu_4_1特征层计算 perceptual loss。将不同损失函数的权重设置为 $λ_{adv}$ = 1， $λ_{cyc}$ = 10， $λ_{per}$ = 0.005， $λ_{make}$ = 1，并将AMM中视觉特征的权重设置为0.01。我们训练了Adam优化的50个epoch的模型，学习率为0.0002，batch_size大小为1。

4.3. Ablation Studies

4.3.1 Attentive makeup morphing module.

在PSGAN中，AMM模块将蒸馏的组成矩阵 $γ$ 和 $β$ 变形为 $γ^′$ ， $β^′$ 。它减轻了源图像和参考图像之间的姿势和表情差异。AMM模块的有效性如图3所示。
在这里插入图片描述

图3

在第一行中，源图像和参考图像的姿势非常不同。没有AMM的情况下，参考图像的刘海将转移到源图像的皮肤。
通过应用AMM，可以很好地解决姿势不对中的问题。在第二行中可以找到类似的观察结果：源图像和参考图像的表达分别为微笑和中性，而唇彩被应用到牙齿区域，而第三列中显示的是没有AMM模块。

集成AMM后，绕过牙齿区域，将唇彩施加到唇部区域。实验表明，AMM模块可以指定如何从参考像素中变形源图像中的像素，而不是直接从同一位置映射组成。

4.3.2 The weight of visual feature in calculating A.

在AMM模块中，我们通过使用等式(2) 考虑视觉特征v和相对位置p来计算attention matrix A。
在这里插入图片描述

图4证明，如果通过将权重设置为0仅考虑相对位置，则第二列中的attentive map类似于2D高斯分布。
在这里插入图片描述

图4

在图4的第一列中，来源皮肤上的红点可能错误地从参考图像（第一行）的鼻孔区域接收了化妆品。attention map也越过了脸部边界，并覆盖了不合理的耳环（第二行）。从侧面看，较大的权重将导致分散且不合理的attention map，如最后一列所示。

通过将权重设置为0.01适当考虑外观特征后，attention map将更多地聚焦在皮肤上，并且绕过鼻孔和背景。

4.4. Partial and Interpolated Makeup Transfer.

由于化妆矩阵 $γ$ 和 $β$ 是空间感知的，因此可以在测试过程中实现部分和内插传递。为了实现部分化妆的生成，我们通过使用面部分析结果对矩阵进行加权来计算新的化妆矩阵。

令x，y1和y2分别表示源图像和两个参考图像。通过将图像输入MDNet，我们可以获得 $T^′_x$ ， $B^′_x$ 和 $T^′_{y1}$ ， $B^′_{y1}$ 以及 $T^′_{y2}$ ， $B^′_{y2}$ 。另外，我们可以通过现有的深度学习方法获得x的face parsing mask $m_x$ 。

假设我们要混合来自 $y_1$ 的口红和来自 $y_2$ 的其他化妆品，我们首先可以获取嘴唇的binary mask，表示为 $m^l_x∈\{0，1\} ^{H×W}$ 。然后，PSGAN可以通过在不同像素上分配不同的化妆参数来实现部分化妆转移。通过修改公式（4）变为公式（10）可以通过以下方式计算局部转换特征图 $V^′_x$ ：
在这里插入图片描述

图5显示了通过部分混合来自两个参考的化妆样式而得到的结果。第三列的结果重新组合了reference 1中嘴唇的妆容和reference 2中其他妆容的部分，这是自然而且真实的。
在这里插入图片描述

图5

同样，通过分配 $x = y_2$ ，仅可以从reference 1转移唇膏并保持其他部分不变。部分化妆的新功能使PSGAN实现了灵活的部分化妆转移。

此外，我们可以用系数 $α \in [0 ， 1]$ 对两个参考图像进行插值。我们首先获得两个reference $y_1$ 和 $y_2$ 的组成张量，然后通过用系数α对其加权来计算新参数。

结果特征图 $V^′_x$ 由下式计算：
在这里插入图片描述

图6显示了带有一幅参考图像和两幅参考图像的内插化妆品转移结果。通过将新的化妆张量输入到MANet中，我们可以在两种参考化妆样式之间进行平滑过渡。

同样，通过分配 $x = y_1$ ，我们可以仅使用一个参考图像来调整转印的阴影。生成的结果表明，我们的PS GAN不仅可以控制化妆转移的阴影，还可以通过混合两种化妆样式的化妆张量来生成新的化妆样式。
在这里插入图片描述

图6

由于具有空间感知的化妆矩阵的设计，我们还可以同时利用人脸解析图和系数同时执行部分和内插传输。以上实验表明，PSGAN显着拓宽了化妆转印的应用范围。

4.5. Comparison.

我们与一般的图像到图像转换方法DIA 和CycleGAN 以及最先进的化妆品转移方法BeautyGAN（BGAN），PairedCycleGAN（PGAN）进行比较， BeautyGlow（BGlow）和LADN。

当前的化妆转移方法利用面部分析图和面部标志来进行训练，并实现各种功能，如表1所示。
在这里插入图片描述

4.5.1 Quantitative Comparison.

我们对使用BGAN，CGAN，DIA和LADN作为基准的Amazon Mechanical Turk（AMT）进行了定量评估的用户研究。为了进行公平的比较，我们只能与发布了代码和预训练模型的方法进行比较，因为我们不能保证完美的重新实现。我们从MT测试集和Makeup-Wild（M-Wild）数据集中随机选择20个源图像和20个参考图像。在使用上述方法在这些图像之间执行化妆转换之后，每种方法我们获得800张图像。
然后，要求5名不同的工作人员通过考虑图像逼真度以及与参考妆容样式的相似性，选择通过5种方法生成的最佳图像。为了公平比较，以随机顺序显示了生成的图像。表2显示了人工评估结果。
在这里插入图片描述
PSGAN在很大程度上优于其他方法，尤其是在M-Wild测试集上。

4.5.2 Quantitative Comparison.

图7显示了PSGAN与正面表情中性表情中其他最新方法的定性比较。由于未发布BeautyGlow和PairedCycleGAN的代码，因此我们遵循BeautyGlow的策略，该策略裁剪了相应论文的结果。 DIA产生的结果在头发和背景上具有不自然的颜色，因为它在整个图像中执行转移。相比之下，CycleGAN的结果比DIA更为真实，但是CycleGAN只能合成与参考文献不相似的一般构成。当前的化妆转移方法优于以前的方法。但是，BeautyGlow无法保留瞳孔的颜色，并且没有与参考相同的粉底妆。我们还使用LADN作者发布的预训练模型，该模型会产生模糊的转移结果和不自然的背景。与基准相比，我们的方法能够生成具有与参考相同的化妆风格的生动图像。
在这里插入图片描述

图7

我们还使用提供代码和预训练模型的最新方法（BeautyGAN和LADN）对M-Wild测试集进行了比较，如图8所示。由于当前的方法缺乏明确的机制为了在像素级别上指导化妆转移的方向，同时也适合正面图像，在处理具有不同姿势和表情的图像时，将化妆应用在面部的错误区域。例如，在图8的第一行上将唇彩转移到皮肤上。在第二行中，其他方法无法在具有不同大小的脸上执行转移。然而，所提出的AMM模块可以通过计算相似度来为每个像素准确分配组成，这使得我们的结果看起来更好。
在这里插入图片描述

图8

4.6. Video Makeup Transfer

在视频中为人转移妆容是一项艰巨而有意义的任务，在应用中具有广阔的前景。但是，视频中人脸的姿势和表情不断变化，这带来了额外的困难。为了检验我们方法的有效性，我们仅在视频的每一帧上进行化妆转移，如图9所示。通过结合PSGAN的设计，我们可以获得良好而稳定的转移结果。
在这里插入图片描述

图9

5. Conclusion

为了将化妆转移应用到实际应用中，我们提出了“姿势和表情”鲁棒的 Spatial-AwareGAN（PSGAN），它首先将化妆样式从reference中提取为两个化妆矩阵，然后利用“精细化妆变形”（AMM）模块准确地进行化妆转换。实验表明，我们的方法可以在正面面部图像和具有各种姿势和表情的面部图像上实现最新的转换结果。此外，借助具有空间感知能力的化妆矩阵，PSGAN可以部分转移化妆并调整转移的阴影，从而大大扩展了迁移化妆的应用范围。此外，我们相信我们的新颖框架可用于需要自定义和精确合成的其他条件图像合成问题。