ReenactGAN: Learning to Reenact Faces via Boundary Transfer 论文翻译

最新推荐文章于 2024-09-13 10:27:31 发布

SIVA3

最新推荐文章于 2024-09-13 10:27:31 发布

阅读量567

点赞数

文章标签：深度学习 pytorch 神经网络

原文链接：https://arxiv.org/abs/1807.11079

版权

随便发的

有些机翻有些地方加入了自己的理解（少）

ReenactGAN: Learning to Reenact Faces via Boundary Transfer Abstract：
我们提出了一种新颖的基于学习的面部重现框架。该提议的方法称为ReenactGAN，它能够将面部运动和表情从任意人的单眼视频输入传输到目标人的视频。与其在像素空间中执行直接转移（这可能会导致结构伪影），我们首先将源面映射到边界潜在空间上。随后使用transformer将源面的边界调整为目标面的边界。最后，使用特定于目标的decoder生成重新制定的目标面孔。由于有效和可靠的基于边界的传输，我们的方法可以执行逼真的面部重现。此外，ReenactGAN的吸引力在于，整个重新制定过程都是纯前馈，因此重新制定过程可以实时运行（一个GTX 1080 GPU上为30 FPS）。
数据集和模型已经开源：[https://wywu.github.io/projects/ReenactGAN/ReenactGAN.html]

Introduction：
面部重现旨在将一个人的面部表情和动作转移到另一目标人的面部。真实的、逼真的面部重现可以找到广泛的应用，包括电影制作，视频会议和增强现实（例如虚拟YouTuber）。近年来，由于RGB-D和RGB相机上越来越精确，可靠的3D面部模型拟合和界标检测技术，提出了许多令人印象深刻的面部重现方法。大多数现有方法将人脸表示为参数已经预定义好的3D模型。这些方法通常涉及跟踪和优化，将源视频放入一组具有限制的面部姿态和表情参数空间，然后呈现经过处理的目标输出。一般来说，基于优化的方法可以更好地处理背景区域，而基于前馈的方法只能支持人脸周围的像素生成。尽管如此，预定义的参数3D模型几乎无法捕获人脸的所有细微运动。此外，这些工作需要大量的努力和复杂的参数拟合的精细设计。考虑到这些方法的算法复杂性，很少有开源的。
生成式对抗网络(GAN)方法的出现，如Pix2Pix和CycleGAN，为面部重现提供了一种吸引人且简洁的选择。然而，尽管GAN在许多图像到图像的转换应用中取得了成功，但训练一种纯粹的基于学习的面部重现方法并非易事:
(1)面部图像是在非常不同的姿态、表情和光照条件下捕捉的。因此，学习基于有限样本但涵盖所有方差的直接面对面的映射是困难的。传统的最先进的GAN，如CycleGAN，在极端条件下会产生非自然的图像，如较大的姿态，或在未看到的图像上失败，如图1所示。
(2)没有两两配对的数据，对于任意一组源视频和目标视频，我们很难匹配不同的表达式。
(3)我们希望执行多对一的映射，即，只用一个给定的源面模型来重新设定一个特定的目标。这个场景违反了CycleGAN的假设，因为不存在逆映射(一对多)。
ReenactGAN能够通过从任意一个人的视频中传输动作和面部表情来操纵视频中的目标人脸。与CycleGAN[57]不同，ReenactGAN可以轻松地支持面部大动作的重现。如最后三列所示，CycleGAN不可能传输不可见的数据。

为了解决前两个挑战，我们需要定义一个空间或媒介，允许一个有效和强大的面部运动和表情的转移。受之前面部模型拟合方法的启发，我们提出使用面部轮廓或边界作为紧凑的媒介来捕捉面部几何变异。具体地说，我们将一个源面映射到一个潜在的边界空间，我们希望这个边界空间能够忠实地保留面部运动和表情。然后我们调整空间，以适应特定的目标人物和解码的外观。
将面部边界作为潜在空间引入，有利于面部重现。首先，人脸图像与人脸边界空间的映射关系到人脸对齐问题。由于采用了现代的人脸标志检测方法，在较大的姿态、多样的表情和极端的光照条件下，可以准确、稳健地获取人脸边界。这是直接基于原始像素的映射所没有的独特优势。其次，简化了用非配对数据传递不同表达式的过程。大规模人脸对准训练集的可用性提供了高质量的成对训练数据，这些训练数据包括人脸图像和相应的边界。无配对数据的学习只发生在定义好的边界空间，同时输入人脸编码和目标人脸解码过程可以充分利用成对人脸对齐数据的功能。（借用大规模数据集提升模型对人脸图像及其边界的检测能力）？
我们最后的挑战是解决多对一的映射问题。为了解决这一问题，我们设计了一个基于GAN-based的Transformer，使输入的面部的边界空间与目标的面部相适应。为了保证转换的质量，我们在PCA空间中使用循环损失、对抗性损失和形状损失来约束过程。使用特定于目标的Transformer，我们可以根据来自任意来源的图像或视频重新生成目标面部。总的来说,提出ReenactGAN取决于三个组件:
(1)编码器编码输入的脸变成一个潜在的边界空间
(2)特定于目标的Transformer，使任意源边界空间适应于特定目标的边界空间
(3)目标特定解码器，将潜在空间解码到目标面部。
ReenactGAN易于重新实现和分发，因为框架中的每个组件都是一个前馈网络，唯一的培训材料是源目标视频和面部对准训练集。
**ReenactGAN的框架:有三个主要组件，它们都是前馈网络。在测试阶段,一个Encoder φ编码图像x到边界空间b。Transformer ρ适应任意的边界到目标。一个解码器ψ解码适应边界ρ(b)到目标的脸t。**

我们的贡献总结如下:
-我们引入了面部重现的“边界潜空间”概念。我们发现，面部边界拥有足够的几何信息，可以用丰富的表情重现一张脸，但与直接用原始像素映射相比，它相对“身份不可知”。重要的是，边界空间对于具有挑战性的姿势、表情和照明条件更加健壮。

-基于边界潜在空间的概念，我们提出了一种新的基于学习的人脸再现框架。所有组件都是前馈的。与传统的基于模型的方法相比，ReenactGAN更易于训练和实现。

-我们向空间中引入特定于目标的Transformer，以实现多对一的面部重现，否则，使用传统的基于GAN的图像到图像的传输方法是不可能实现的。
Related Work：
Face Reenactment: 大多数现有的研究可以归类为“基于模型”的方法。这些方法通常包括三个步骤:
(1)人脸捕捉，例如跟踪人脸模板，使用光流作为外观和速度测量来匹配数据库中的人脸，或者使用RGB或RGB- d相机来捕捉人脸运动。近年来，人脸标记检测技术的发展使得我们能够有效地跟踪输入的面部成分，如眼睛和嘴巴。
(2)一旦捕捉到面部运动，许多研究将随后在参数空间或模型中拟合该运动，包括头部姿态、眼睛注视、或3D模型基上的PCA系数，甚至详细的3D人脸网格。
(3)模型拟合完成后，下一步是重新渲染一个新的视频。Garrido等人直接从目标视频中获取与源视频相似的姿态，并通过变形渲染新视频。采用相似的策略优化内口生成过程。基于检索的方法具有较低的计算效率。
最近，CycleGAN为face reenactment提供了一个新的可行的解决方案。据我们所知，尽管文献中没有发表过经过同行评审的论文，但在社区中发布或展示了一些有趣的工作。与CycleGAN只能处理一个源人员和一个目标不同，我们的框架旨在解决更困难的多对一问题，这允许更多的实际应用。
Generative Adversarial Network (GAN) and CycleGAN: 生成式对抗网络(GAN)已被广泛应用于包括人脸图像在内的图像生成领域。通过采用对抗性损失，可以将低维噪声向量输入、时尚设计编码、不真实的面部图像或文本描述映射到真实的图像。Zhu等人的研究表明，通过加入一个循环一致性损失，CycleGAN在学习两个域之间的转换函数方面取得了令人印象深刻的结果。最近，Mueller等人利用几何一致性损失来保持基于CycleGAN的手部姿势。我们的方法不同于直接在几何潜在空间上进行图像到图像的平移，而不是添加一个辅助的几何约束。Xu等人应用CycleGAN来研究特定的一对人之间的转换。他们在不同的面部成分上添加了特定的鉴别器，以提高每个局部的表现。与此相反，ReenactGAN首先将所有面孔映射到一个边界潜在空间中，然后将其解码到每个特定的人。利用所提出的特定于目标的Transformer，每个解码器可以根据所适应的边界空间将任意的人重新设定为特定的目标，从而高效、方便地实现多对一的重新设定。引入边界空间也提高了面部动作的一致性和极端姿态的鲁棒性。

Face Reenactment via Boundary Transfer：

ReenactGAN的框架:有三个主要组件，它们都是前馈网络。在测试阶段,一个Encoder φ编码图像x到边界空间b。Transformer ρ适应任意的边界到目标。一个解码器ψ解码适应边界ρ(b)到目标的脸t。

提出的框架ReenactGAN如图2所示。ReenactGAN可以分为三个组件:边界encoder、特定于目标的多对一Transformer和特定于目标的decoder。每个组件都是一个前馈网络。在测试阶段，将向前通过每个组件传递一个查询面。本节其余内容组织如下:3.1节给出编码器、解码器和联合重建损耗;第3.2节描述了边界层潜伏层;

3.3节解释了特定于目标的多对一Transformer的详细信息。(数学公式有空更新)
3.1 Encoder and Decoder
3.2 Boundary Latent Space
3.3 Boundary Transformer

Experiments：
我们从两个方面对面部重现进行了评估:
(1)图像质量——在第4.1节中展示了定性结果之后，我们在第4.2节中报告了一个用户研究。
(2)面部动作一致性——为了测量生成的输出是否正确捕获了输入面部的表情，我们比较了4.3节中面部动作单元的响应。第4.4节最后对Transformer的损耗进行了ablation研究。