【杂谈】有三AI知识星球最近都GAN了哪些内容？

最新推荐文章于 2024-12-26 10:42:15 发布

言有三

最新推荐文章于 2024-12-26 10:42:15 发布

阅读量934

点赞数

本文链接：https://blog.csdn.net/hacker_long/article/details/103590411

版权

本文介绍了GAN在人脸编辑领域的最新进展，包括年龄编辑、表情编辑、姿态编辑、美颜及换脸算法。通过多种GAN模型，如CAAE、G2-GAN、FFGAN、BeautyGAN和FastFace-swap，实现人脸的年龄变化、表情迁移、姿态正脸化、妆造转移和精准换脸，展示了GAN在人脸识别和娱乐应用中的潜力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

欢迎大家来到《知识星球》专栏，有三AI知识星球GAN已经更新了好一段时间了，那么最近这一个月主要是在更新什么内容呢，下面简单的介绍一下。

作者&编辑 | 言有三

1 GAN与人脸年龄编辑

跨年龄的人脸识别和验证是一个非常具有挑战性的问题，如果能对年龄进行归一化，去除年龄因素的干扰，将大大提升跨年龄人脸识别的精度。

有三AI知识星球-网络结构1000变

CAAE

CAAE(Conditional Adversarial Autoencoder)是一个年龄编辑模型，它可以估计年龄变大时的人脸(Age Progression)，也可以估计年龄较小时的人脸(Age Regression)。

作者/编辑言有三

CAAE模型首先假设人脸图像处于一种高维流形(high-dimensional manifold)中，当图像在这个流形中沿着某个特定方向移动时，年龄就会随着发生变化，如下图。

图中点表示的就是各个年龄，而虚线轨迹就是自然的变化方向，不过在高维流形中操作人脸图像是一件非常困难的事情，我们无法直接描绘上述的轨迹。

因此与大部分生成模型的思路一样，首先需要将图像映射到低维的latent space，实际上就是一个低维的向量，最后再把处理后的低维向量映射回到高维流形中。这两次映射分别由Encoder和Generator实现，如下：

Encoder输入图像输出z，之后与年龄标签向量进行拼接作为G的输入。判别器包含两个，一个是Dimg，一个是Dz。年龄标签向量填充后与人脸图进行通道拼接输入到判别器Dimg，该判别器判别生成图的真实性，包含若干个卷积层和若干个全连接层。Dz用于约束z的均匀分布，它包含若干个全连接层。

使用开源代码https://github.com/mattans/AgeProgression，训练结果如下。

上面的成对图中左侧是生成图，右侧是原图，可以看到正面人脸图像效果是非常好的。

参考文献

[1] Zhang Z, Song Y, Qi H. Age progression/regression by conditional adversarial autoencoder[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 5810-5818..

2 GAN与人脸表情编辑

表情与年龄一样，也会对人脸识别算法构成一定挑战，年龄和表情编辑同时还是一个兼具娱乐性的应用方向，GAN在其中大有可为。

有三AI知识星球-网络结构1000变

G2-GAN

Geometry Guided Adversarial Facial Expression Synthesis中提出了一个基于关键点的表情编辑GAN，它将人脸关键点的热图作为条件来控制表情的生成与去除。

作者/编辑言有三

该模型包括两个生成器和两个判别器。生成器GE是一个表情生成器，输入带表情的关键点热图HE和无表情的正脸图IN，生成有表情的图IE。生成器GN则相反，输入带表情的关键点热图HE和有表情的正脸图IE，生成无表情的图IN。

判别器D用于判别真实的三元组(I,H,I’)和生成的三元组(I,H,G(I))，其中I和I’代表的就是无表情和有表情的图。DE中I是无表情图，I’是有表情图，DN中则反之。

整体的损失函数包括4部分：

第一部分是标准的GAN损失，包括生成器损失和判别器损失。

第二部分是pixel loss，用于约束生成器的图与输入图的像素平滑。

第三部分是cycles损失，从输入图到GE，到经过GN，构成了一个闭环。

第四部分是属性保持损失，用于约束身份信息不会被更改，如下式，其中F表示的是人脸识别的特征提取器。

下面是它在CK+表情数据集上的结果。

第一排是无表情，第二排是有表情，第三排是去除表情，第四排是仿真的表情。

上图是不同表情的插值结果，第一列是原图，后面的列是不同幅度的表情，实验结果充分验证了本方法的有效性。

参考文献

[1] Song L, Lu Z, He R, et al. Geometry guided adversarial facial expression synthesis[C]//2018 ACM Multimedia Conference on Multimedia Conference. ACM, 2018: 627-635.

3 GAN与人脸姿态编辑

姿态对人脸识别等算法的影响非常大，将GAN用于姿态仿真，比如正脸化，将非常有助于人脸识别等模型的性能提升。

有三AI知识星球-网络结构1000变

FFGAN

FFGAN是一个人脸姿态编辑GAN，可以实现任意姿态到正脸的生成。

作者/编辑言有三

从上图结构可以看出，3DMM系数提供了全局的姿态信息以及低频的细节，而输入的大姿态图像则提供了高频细节，两者结合一起输入生成器Generator，并且使用人脸识别模型来进行身份ID信息的保持。

具体的模型结构如下：

整个损失函数包括5部分，除了人脸重建损失，全变分平滑损失，GAN的对抗损失以及人脸识别身份保持损失之外，还添加了一个人脸对称性的约束作为对称损失，其定义如下：

使用Multi-PIE数据集进行训练，结果如下：

FFGAN使用了3DMM模型的系数作为条件控制，首次使用了完全正脸姿态的仿真，这也是后续很多姿态编辑GAN的基本思想。

参考文献

[1] Yin X, Yu X, Sohn K, et al. Towards large-pose face frontalization in the wild[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 3990-3999.

4 GAN与人脸美颜

人脸美颜是一个由来已久的研究课题，传统的方法多是基于滤波算法和几何变换，可以实现磨皮美白以及脸型调整。随着GAN的流行，更多的个性化操作变得可行，比如人脸的妆造迁移。

有三AI知识星球-网络结构1000变

BeautyGAN

BeautyGAN是一个人脸妆造迁移算法，它不需要成对图进行训练，可以将一张图的妆造风格迁移到另一张图。

作者/编辑言有三

如上图是BeautyGAN的结构示意图，它使用了CycleGAN的基本结构。生成器G包括两个输入，分别是无妆图Isrc、有妆图Iref，通过encoder、residual blocks、decoder组成的生成器得到两个输出，分别是上妆图IBsrc、卸妆图IAref。之后再通过把上妆图IBsrc和卸妆图IAref输入给之前的G，重新执行一次卸妆和上妆，得到两张重建图Irec_src和卸妆图Irec_ref。

BeautyGAN的关键在于损失函数的设计，它包含2个主要的损失项：

第一个是perceptual loss：要求上妆和卸妆都不能改变原始的人物ID信息，这里通过Perceptual loss进行约束。

第二个是循环损失(cycle consistency loss)，它用于约束一张图经过两次G后与对应的原始图相同，与CycleGAN的不同之处在于这里使用了同一个GAN，损失的定义是一致的，不再多说。

第三个就是直方图匹配损失，定义如下：

直方图匹配损失用于控制脸部、眼部、嘴部三个局部区域的效果。M是掩膜，item分别表示脸部、眼部、嘴部三个区域，HM是一个直方图匹配操作。

使用开源代码https://github.com/baldFemale/beautyGAN-tf-Implement进行训练，测试结果如下：

参考文献

[1] Li T, Qian R, Dong C, et al. Beautygan: Instance-level facial makeup transfer with deep generative adversarial network[C]//2018 ACM Multimedia Conference on Multimedia Conference. ACM, 2018: 645-653.

5 GAN与换脸算法

换脸算法有很多种，已经从实验室走向了工业界，甚至达到了以假乱真的效果，我们后面会给大家持续介绍。

有三AI知识星球-网络结构1000变

Fast Face-swap

Fast Face-swap是一个基于风格迁移的换脸模型，将被换脸图作为内容图，换脸图作为风格图，实现了单张图的人脸迁移。

作者/编辑言有三

从上图结构可以看出，它首先对输入图像进行正脸对齐，然后使用风格迁移算法将要换的脸图进行面部纹理迁移得到结果图，接着进行反对齐，即恢复人脸的初始姿态，最后基于人脸掩膜与原始图像采用seamless cloning技术进行融合改进。

具体的网络结构如上，采用了多尺度的结构，内容的损失就是标准的L2距离。

风格的损失使用了多个K*K大小的图像块的高层特征向量的余弦距离，如下：

文章中还添加了一个光照损失，通过在同一姿态不同光照条件下训练的Siamese模型来提取特征，然后计算其欧式距离。

完整的实现可以参考众多的风格迁移模型，一些结构如下：

可以看出正脸的换脸效果还是不错的。

参考文献

[1] Korshunova I, Shi W, Dambre J, et al. Fast face-swap using convolutional neural networks[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 3677-3685.

6 关于更多GAN的内容

有三AI知识星球是我们继公众号之后重点打造的原创知识学习社区，目前的网络结构1000变板块正在更新GAN相关的内容，有需要的同学可以加入学习。