人脸图像GAN，今如何？（附多篇论文下载）

最新推荐文章于 2024-07-10 18:33:40 发布

机器学习与AI生成创作

最新推荐文章于 2024-07-10 18:33:40 发布

阅读量2.1k

点赞数

分类专栏：扩散模型与GAN生成对抗网络计算机视觉面试前沿与基础

本文链接：https://blog.csdn.net/lgzlgz3102/article/details/106247871

版权

121 篇文章 127 订阅

订阅专栏

80 篇文章 16 订阅

订阅专栏

点击上方“机器学习与生成对抗网络”，关注"星标"

获取有趣、好玩的前沿干货！

下述paper均属CVPR 2020，可在公众号后台回复 001 即可获取打包下载。

0、前言

今天分享的是关于GAN在人脸图像生成/编辑方面的进展，下述论文均属CVPR 2020。
短视频等作为未来网络的风口和趋势，视频或者说就是图像的编辑处理必是研究热点；而人作为视频主体之一，人脸相关的视觉算法、图像处理又是研究热点；
GAN擅长进行图像生成和编辑，但具体落于实际用处，仍有诸多待解决的问题；
不难看到，CVPR 2020有不少论文在研究人脸图像生成和编辑。主要集中在：（1）如何更精准可控的生成人脸？（潜码空间的可解释性，解耦表征学习，融合一些先验、3D等，复杂任务模块化分解，）（2）以及如何在更少样本下进行图像处理/生成？等等。

本文提出的Adversarial Latent Autoencoder (ALAE)是一种结合了自编码器、更具通用性的、利用GAN方法的架构，它可以进行更“解耦”的表征学习。
ALAE不仅可以生成可以和StyleGAN媲美的1024大图，还可以对真实image进行更好的重建、编辑等。

生成对抗网络（GAN）及其变体在图像合成任务取得了巨大成功，但众所周知，它们很难适应不同的数据集，部分原因是训练期间不稳定和对超参数敏感。对于这种不稳定，一种普遍的观点是：当真实分布和生成分布的支撑集不够重叠时，鉴别器反馈给生成器的梯度是无法提供有益的信息的。
在这项工作中，提出了多尺度梯度生成对抗网络（MSG-GAN），一种简单但有效的手段，通过在多个尺度上从鉴别器到生成器提供梯度。这可为高分辨率图像合成提供了一种稳定训练的方法，也可以替代常用的渐进式生长的ProGAN。作者表明MSG-GAN在不同的尺寸、分辨率和图像域的数据集，以及不同类型的损失函数和网络结构下，都可以使用相同的一组超参数稳定收敛。与先进的GAN相比，该方法在大多数情况下具有优势。

提出了一种更具可控性的人脸图像生成方法，以解耦表示人的身份，表情，姿势和光照因素等。
将3D先验嵌入到对抗性学习中，并训练网络以模仿3D面部变形和渲染过程的图像形成。为了处理由真实和渲染图像之间域差引起的自由度，进一步引入Contrastive Learning，以通过比较生成的图像对来促进解纠缠。
https://github.com/microsoft/DisentangledFaceGAN

尽管人脸图像处理已取得了巨大发展，但大多数方法要么在一组预定义的面部属性上进行操作，要么只能给用户提供很小的交互操作自由空间。本文提出为MaskGAN，可进行多种交互式的人脸编辑。
本文关键之处是，语义mask可作为具有高保真度、灵活的面部操作的中间表示。MaskGAN具有两个主要组件：1）密集映射网络（DMN）和 2）编辑行为模拟训练（EBST）。具体来说，DMN学习用户自由修改的mask和目标图像之间的映射，实现多种生成结果。EBST在源mask上对用户编辑行为进行建模，从而使整个框架对各种操纵的输入更加健壮。具体来说，它引入了dual-editing consistency作为辅助监督。
为便于进行广泛的研究，还构建了一个名为CelebAMask-HQ的细粒度mask的、大规模高分辨率数据集。
https://github.com/switchablenorms/CelebAMask-HQ

为了解决这些局限性，提出Cascade Expression Focal GAN（Cascade EF-GAN）能够以局部表情为重点进行渐进式表情编辑。通过将大幅度表情转换分成多个小面部表情来设计级联式的转换，有助于抑制重叠的伪像并产生更逼真自然的效果。

基于已经学习到通用人脸分布的预训练StyleGAN模型，本文提出了一种能够生成与给定的一幅图像示例落于相同分布的人脸图像。
给定目标图像，可以通过这种迭代优化方案快速调整模型的权重，以将输出的高级分布转移到目标分布。这样一来，可以生成无限数量的人脸（这些人脸都继承了普通人脸和一次性实例的分布）。新生成的数据可以用作其他下游任务如增强训练数据。

公众号近期荐读：