基于 StyleGAN 的图像生成学习实践

最新推荐文章于 2024-08-01 16:38:40 发布

友人圣桑

最新推荐文章于 2024-08-01 16:38:40 发布

阅读量2.4k

点赞数 1

分类专栏：中文论文及报告文章标签：深度学习

本文链接：https://blog.csdn.net/qq_36115280/article/details/120311716

版权

本文介绍了基于StyleGAN的图像生成学习，包括GAN的基本原理、StyleGAN的演变过程及其特点，如ProGAN的平滑过渡、StyleGAN的映射网络和AdaIN模块，以及StyleGAN-encoder和StyleGAN 2的改进。通过实验展示了StyleGAN在黄种人人脸和动漫人脸生成的效果，探讨了生成质量与训练资源的关系。

摘要由CSDN通过智能技术生成

借助于研一期间的图像处理课程，于两个月内接触了当时最先进的图像生成方法——StyleGAN。本报告记录了学习的理论内容和实验结果。

1 引言

图像处理一直是信息处理、计算机等专业研究的交叉领域，有很多不同门类的方法在不断的更新和创新。所以作为一名相关领域的学生，应当或多或少的了解其内容。在图像生成中，GAN 是一个很火热的研究方向。本文将注意力集中在利用 GAN 网络生成图像上，经过调研，StyleGAN 是该领域中当前 SOTA 的方法，所以，为了赶上时代潮流，研究最新的技术，本文以 StyleGAN 为切入点进行了理论学习和实验操作。

本文正文分三部分，依次介绍 GAN 的基础原理、StyleGAN 的全部内容和基于 StyleGAN 的实验部分。

2 GAN的背景及应用

2.1 对抗网络介绍

对抗网络的基础是生成模型和判别模型。判别模型比较好理解，就像分类一样，有一个判别界限，通过这个判别界限去区分样本。从概率角度分析就是获得样本 x 属于类别 y 的概率，是一个条件概率 P(y|x)。而生成模型是需要在整个条件内去产生数据的分布，就像高斯分布一样，需要去拟合整个分布，从概率角度分析就是样本 x 在整个分布中的产生的概率，即联合概率 P(xy)。

对抗网络只是提出了一种网络结构，总体来说，GANs 简单的想法就是用两个模型，一个生成模型，一个判别模型。判别模型用于判断一个给定的图片是不是真实的图片(从数据集里获取的图片)，生成模型的任务是去创造一个看起来像真的图片一样的图片。而在开始的时候这两个模型都是没有经过训练的，这两个模型一起对抗训练，生成模型产生一张图片去欺骗判别模型，然后判别模型去判断这张图片是真是假，最终在这两个模型训练的过程中，两个模型的能力越来越强，最终达到稳态。

2.2 GANs原理

我们假设把每一个图片看作二维空间中的一个点，并且现有图片会满足于某个数据分布，我们记作𝑃 (𝑥)。以人脸举例，在很大的一个图像分布空间中，实际上只有很小一部分的区域是人脸图像。今天我们需要做的，就是让机器去找到人脸的分布函数。具体来说，就是我们会有很多人脸图片数据，我们观测这些数据的分布，大致能猜测到哪些区域出现人脸图片数据的概率比较高，但是如果让我们找出一个具体的定义式，去给明这些人脸图片数据的分布规律，我们是没有办法做到的。但是如今，我们有了机器学习，希望机器能够学习到这样一个分布规律，并能够给出一个极致贴合的表达式。

在 GANs 出现之前，人们采用的方法是 Maximum Likelihood Estimation。简单来说，就是我们有一个生成器 $P_g$ 和一组参数 $\theta$ ，我们还有从真实分布𝑃 (𝑥) 中采样出的数据{𝑥},我们不知道数据的真实分布具体长什么样，但是我们希望不断地调整𝑃和θ，让𝑃 (𝑥;𝜃)越接近𝑃 (𝑥)越好。具体的做法是，对于每一组参数θ 和真实分布的抽样𝑥，我们能够计算出参数θ下的生成器生成该真实抽样𝑥的 likelihood，于是我们希望找到一个最佳的参数组θ，使得生成器的结果最接近𝑃 (𝑥)，也就是对于每个真实抽样𝑥的 likelihood 都最大，这等价于所有真实抽样𝑥的 likelihood 的乘积最大，那原始问题就转换为如下这个最大似然问题：

下面我们需要求解这个 maximizing the likelihood 问题，我们先证明，它其实等价于求 minimize KL Divergence(KL Divergence 是一个衡量两个分布之间的差异的计算式)问题。

$L=\prod_{i=1}^{m}P_G(x^i;\theta)$

首先我们加上一个对数 log，将累乘转化为累加问题。然后再将累加转化为期望问题：