人脸图像GAN,今如何?(附多篇论文下载)

点击上方机器学习与生成对抗网络”,关注"星标"

获取有趣、好玩的前沿干货!

下述paper均属CVPR 2020,可在公众号后台回复 001 即可获取打包下载。

0、前言

  • 今天分享的是关于GAN在人脸图像生成/编辑方面的进展,下述论文均属CVPR 2020

  • 短视频等作为未来网络的风口和趋势,视频或者说就是图像的编辑处理必是研究热点;而人作为视频主体之一,人脸相关的视觉算法、图像处理又是研究热点;

  • GAN擅长进行图像生成和编辑,但具体落于实际用处,仍有诸多待解决的问题;

  • 不难看到,CVPR 2020有不少论文在研究人脸图像生成和编辑。主要集中在:(1)如何更精准可控的生成人脸?(潜码空间的可解释性,解耦表征学习,融合一些先验、3D等,复杂任务模块化分解,)(2)以及如何在更少样本下进行图像处理/生成?等等。

1、Adversarial Latent Autoencoders

  • 本文提出的Adversarial Latent Autoencoder (ALAE)是一种结合了自编码器、更具通用性的、利用GAN方法的架构,它可以进行更“解耦”的表征学习。

  • ALAE不仅可以生成可以和StyleGAN媲美的1024大图,还可以对真实image进行更好的重建、编辑等。

  • https://github.com/podgorskiy/ALAE

2、MSG-GAN: Multi-Scale Gradients for Generative Adversarial Networks

  • 生成对抗网络(GAN)及其变体在图像合成任务取得了巨大成功,但众所周知,它们很难适应不同的数据集,部分原因是训练期间不稳定和对超参数敏感。对于这种不稳定,一种普遍的观点是:当真实分布和生成分布的支撑集不够重叠时,鉴别器反馈给生成器的梯度是无法提供有益的信息的。

  • 在这项工作中,提出了多尺度梯度生成对抗网络(MSG-GAN),一种简单但有效的手段,通过在多个尺度上从鉴别器到生成器提供梯度。这可为高分辨率图像合成提供了一种稳定训练的方法,也可以替代常用的渐进式生长的ProGAN。作者表明MSG-GAN在不同的尺寸、分辨率和图像域的数据集,以及不同类型的损失函数和网络结构下,都可以使用相同的一组超参数稳定收敛。与先进的GAN相比,该方法在大多数情况下具有优势。

  • https://github.com/akanimax/msg-stylegan-tf

3、StyleRig: Rigging StyleGAN for 3D Control over Portrait Images

  • StyleGAN可以生成具有极具真实感的肖像图像,但缺乏对3D可解释的语义参数(如脸部姿势,表情,和场景照明)。

  • 3DMM提供了语义参数以控制,但是在渲染时缺乏真实感,且仅对人脸进行建模,而对肖像其他部分(头发、嘴部内部、背景)不进行建模。

  • 本文提出通过3DMM对预训练、固定的StyleGAN进行面部语义参数控制的方法;方法以自监督式训练,无需人工标注。

4、Deep 3D Portrait from a Single Image

  • 本文提出了一种基于学习的方法,用于从单个肖像图像恢复头部的3D几何形状;方法是无监督的,没有任何真实的3D数据。

  • 使用参数化3D面部模型、和包括头发耳朵等在内其他头部区域的深度图来表示头部几何形状。

  • 提出了一种两步学习方案:

5、Disentangled and Controllable Face Image Generation via 3D Imitative-Contrastive Learning

  • 提出了一种更具可控性的人脸图像生成方法,以解耦表示人的身份,表情,姿势和光照因素等。

  • 将3D先验嵌入到对抗性学习中,并训练网络以模仿3D面部变形和渲染过程的图像形成。为了处理由真实和渲染图像之间域差引起的自由度,进一步引入Contrastive Learning,以通过比较生成的图像对来促进解纠缠。

  • https://github.com/microsoft/DisentangledFaceGAN

6、MaskGAN: Towards Diverse and Interactive Facial Image Manipulation

  • 尽管人脸图像处理已取得了巨大发展,但大多数方法要么在一组预定义的面部属性上进行操作,要么只能给用户提供很小的交互操作自由空间。本文提出为MaskGAN,可进行多种交互式的人脸编辑。

  • 本文关键之处是,语义mask可作为具有高保真度、灵活的面部操作的中间表示。MaskGAN具有两个主要组件:1)密集映射网络(DMN)和 2)编辑行为模拟训练(EBST)。具体来说,DMN学习用户自由修改的mask和目标图像之间的映射,实现多种生成结果。EBST在源mask上对用户编辑行为进行建模,从而使整个框架对各种操纵的输入更加健壮。具体来说,它引入了dual-editing consistency作为辅助监督。

  • 为便于进行广泛的研究,还构建了一个名为CelebAMask-HQ的细粒度mask的、大规模高分辨率数据集。

  • https://github.com/switchablenorms/CelebAMask-HQ

7、Cascade EF-GAN: Progressive Facial Expression Editing with Local Focuses

  • 在人脸编辑里,当前的方法仍然可能产生伪影和模糊(例如在处理诸如从愤怒到笑之类的大幅表情转换时)。

  • 为了解决这些局限性,提出Cascade Expression Focal GAN(Cascade EF-GAN)能够以局部表情为重点进行渐进式表情编辑。通过将大幅度表情转换分成多个小面部表情来设计级联式的转换,有助于抑制重叠的伪像并产生更逼真自然的效果。

8、Interpreting the Latent Space of GANs for Semantic Face Editing

  • https://genforce.github.io/interfacegan/

  • 对GAN如何将从随机分布中采样的潜码映射到真实图像仍缺乏足够的了解。

  • 在这项工作中,提出了一个称为InterFaceGAN的新颖框架,用于通过解释GAN所学到的潜在语义来进行人脸编辑。

  • 作者发现,训练好的生成模型的潜码实际上在线性变换后即可学到解纠缠的表示。作者探索了各种语义之间的纠缠现象,并尝试对人脸属性进行更精确控制生成。

9、One-Shot Domain Adaptation For Face Generation

  • 基于已经学习到通用人脸分布的预训练StyleGAN模型,本文提出了一种能够生成与给定的一幅图像示例落于相同分布的人脸图像。

  • 给定目标图像,可以通过这种迭代优化方案快速调整模型的权重,以将输出的高级分布转移到目标分布。这样一来,可以生成无限数量的人脸(这些人脸都继承了普通人脸和一次性实例的分布)。新生成的数据可以用作其他下游任务如增强训练数据。


公众号近期荐读:


GAN&CV交流群,无论小白还是大佬,诚挚邀您加入!

一起讨论交流!长按备注【进群】加入:

更多分享、长按关注本公众号:

展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 大白 设计师: CSDN官方博客
应支付0元
点击重新获取
扫码支付

支付成功即可阅读