Cascade EF-GAN: Progressive Facial Expression Editing with Local Focuses 论文解读

本文链接：https://blog.csdn.net/qq_43351790/article/details/123044669

本文介绍了 Cascade EF-GAN，一种新的深度学习模型，用于渐进式面部表情编辑，特别关注眼睛、鼻子和嘴巴等局部特征。通过引入局部聚焦和级联变换策略，该模型在处理大间隙表情转换时能有效减少伪影，生成更真实的编辑效果。实验表明，级联EF-GAN在面部表情编辑任务中表现出卓越性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

题目：Cascade EF-GAN：局部聚焦渐进式面部表情编辑
时间：2020.3
作者：Rongliang Wu, Gongjie Zhang, Shijian Lu, and Tao Chen
CVPR 2020

Abstract

目前面部表情编辑存在的问题：生成性对抗网络（GAN）的最新进展表明，面部表情编辑有了显著的改进。然而，当前的方法仍然容易在表达密集型区域周围产生伪影和模糊，并且在处理大间隙表达转换（例如从愤怒到大笑的转换）时，经常引入不希望的重叠伪影。
本文提出的方案：
（1）为了解决这些局限性，我们提出了Cascade Expression Focal GAN（Cascade EF-GAN），这是一种新的网络，可以使用局部表情焦点进行渐进式面部表情编辑。局部聚焦的引入使Cascade EF-GAN能够更好地保留眼睛、鼻子和嘴巴周围与身份相关的特征和细节，这进一步有助于减少生成的面部图像中的伪影和模糊。
（2）此外，设计了一种创新的级联变换策略，将大型面部表情变换分解为级联中的多个小型表情变换，这有助于抑制重叠伪影，并在处理大间隙表情变换时产生更逼真的编辑效果。
（3）在两个公开的面部表情数据集上进行的大量实验表明，我们提出的级联EF-GAN在面部表情编辑方面取得了优异的性能。

1.Introduction

面部表情编辑发展现状：面部表情打开了一扇了解人们内部情绪的窗口，传达了微妙的意图，关于面部表情的自动识别有很多研究工作。在数字媒体的今天和时代，面部表情编辑即将给定面部图像的表情转换为目标表情，而不丢失身份属性，有可能应用于不同的领域，比如说摄影技术、电影产业、娱乐业等。它越来越受到学术界和工业界的关注。
现有的面部表情编辑方法存在的不足：受生成性对抗网络（GANs）最近的成功启发，报告的几项研究工作已经取得了非常令人印象深刻的面部表情编辑结果。另一方面，现有的方法仍然面临一些约束。首先，现有的方法往往会产生不连贯的伪影和/或模糊，尤其是在那些表情丰富的区域，如眼睛、鼻子和嘴巴周围。第二，当源面部表情与目标面部表情存在较大差距时，现有方法往往会产生重叠伪影，例如从愤怒到大笑的转换。
现有的面部表情编辑方法只将图像作为整体处理，没有特别关注与局部身份相关的特征（眼/鼻子/嘴巴）：面部表情编辑的任务需要维护个人身份。作为人类，识别面部图像的自然方法是特别注意眼睛、鼻子和嘴巴，这主要是因为这些区域包含丰富的身份相关信息。另一方面，几乎所有基于GAN的面部表情编辑方法都只是将输入的面部图像作为一个整体进行处理，而没有特别注意与局部身份相关的特征，这可能是大多数现有方法在眼睛、鼻子和嘴巴周围产生不连贯伪影和模糊的一个主要原因。
此外，据我们所知，所有现有的基于GANs的面部表情编辑方法都对目标表情执行一步转换。另一方面，由于网络容量的限制，在处理大间隙变换时，单步变换通常会产生重叠伪影（在面部表情变化较大的区域周围）。由于面部表情的变化本质上是连续的，如果网络将其分解为许多小的变换，那么大的间隙变换应该更好地完成。
在这篇论文中，我们提出了一种新的级联表达局部GAN（级联EF-GAN），用于局部聚焦的渐进式面部表情编辑。级联EF-GAN由级联中几个相同的EF-GAN模块组成，这些模块以渐进的方式执行面部表情编辑。具体而言，设计了一种创新的级联变换策略，将大型面部表情变换分解为多个小型面部表情变换，并循序渐进的执行面部表情变换。这种渐进式面部表情转换有助于抑制重叠伪影，并在处理大间隙面部表情转换时实现更健壮、更逼真的表情编辑。此外，每个EF-GAN模块都包含许多预定义的局部焦点，分别捕捉眼睛、鼻子和嘴巴周围与身份相关的特征。EF-GAN具有与身份相关的详细特征，能够生成具有更少伪影的连贯面部表情图像。我们提出的级联EF-GAN的结果如图1所示。
本文的贡献
（1）首先，我们确定了局部焦点在面部表情编辑中的重要性，并提出了一种新的EF-GAN，它可以捕获具有多个局部焦点的身份相关特征，并有效地减少编辑伪影和模糊。
（2）其次，我们提出了一个创新的渐进式面部表情编辑级联设计。级联设计在处理较大间隙的表情转化时，在抑制重叠伪影方面是稳健而有效的。（重叠伪影指的是原始表达式和目标表达式