©PaperWeekly 原创 · 作者|薛洁婷
学校|北京交通大学硕士生
研究方向|图像翻译
论文介绍
人脸表情编辑通常涉及较大的几何变化,并且需要同时修改多个面部区域。虽然基于生成式对抗网络(GAN)的人脸表情编辑模型已取得了显著性成果,但是在处理大幅度表情变换时如从愤怒到笑等,当前模型依旧会产生伪影和模糊问题。
针对这一问题作者提出了以局部区域为重点的渐进式表情转换模型 Cascade EF-GAN。不同于针对整张图像的表情变换模型,该模型将表情变换细分为眼睛,鼻子和嘴巴的局部区域独立地进行表情变换,并采用渐进的方式训练模型。实验表明该模型有助于抑制重叠伪影以及模糊问题,并能产生逼真自然的效果。
论文标题:Cascade EF-GAN: Progressive Facial Expression Editing with Local Focuses
论文来源:CVPR 2020
论文链接:https://arxiv.org/abs/2003.05905
模型架构
从图 2 中可以看出 Cascade EF-GAN 由多个 EF-GAN 组成,它们以级联的方式进行表情变换,并且每个 EF-GAN 的网络架构是一致的,都包含表情转换模块和微调模块,下面具体展开介绍。
▲ 图1. 模型架构
相信很多训练过深度模型的研究者都会有这样的体会,我们在整图上使用一组卷积核去提取特征时通常会遗漏大量的细节特征,如果针对局部区域去提取特征会有助于保留细节信息。根据这一经验作者设计了一个由针对整图的全局生成器和三个分别针对眼睛、鼻子以及嘴巴区域的局部生成器构成的表情转换模型。
表情转换模型以原人脸图以及目标表情标签作为输入,输出为表情变换后的图像。作者采用了 Facial Action Coding System(FACS)将表情编码为 Action Units(AUs)来获取目标表情标签,并使用 Open-Face 获取人脸关键点从而剪裁出眼睛、鼻子和嘴巴区域,之后再将这些图像分别输入特定的生成器中。
每个生成器均使用相同的网络架构,为了更好的捕获细节以及抑制伪像,作者借鉴了 GANimation 中的注意力机制,具体来说该机制在解码器中分出两个分支,一个用于解码出注意力映射图另一个用于解码出颜色映射图,通过对注意力映射图进行约束引导编码器能够更关注于表情相关的显著性区域,如图 2 所示。
最终每个生成器输出颜色特征映射 以及注意力映射