论文阅读，GAN 生成对抗网络 2014 Goodfellow原文阅读笔记

最新推荐文章于 2024-07-28 09:04:53 发布

superhy_scut

最新推荐文章于 2024-07-28 09:04:53 发布

阅读量9k

点赞数 7

分类专栏：科研

本文链接：https://blog.csdn.net/qdhy199148/article/details/60777098

版权

本文是对2014年Goodfellow等人发表的Generative Adversarial Nets的精读笔记，详细介绍了GAN的原理，包括生成模型G与检验模型D的博弈过程，以及理论上的最优解和算法收敛性。通过对实验的分析，阐述了GAN在手写数字、人脸和CIFAR-10数据集上的表现。

摘要由CSDN通过智能技术生成

2014Generative Adversarial Nets(精读2017.3.2)

Goodfellow, Bengio et al.
NIPS2014
蒙特利尔大学

摘要

一种新的生成式框架，同时训练两个模型，一个称为“产出模型” G，另一个称为“检验模型” D
G用于描述数据的分布（或者说是生成尽可能拟合真实数据的分布），D用于对G各个迭代轮次产生的结果进行评估，D的目标是尽可能评估得出真实分布比G生成的“高仿分布”更加真实，而G的目标就是尽可能使生成的结果让D的辨认出现错误（注意，这里不同于某些解读说的：尽量生成出更真实的分布）

举一个拙劣的比喻就是：假设我们来到一家古玩店，G是一个学徒，D是他的师父，师父让学徒对着真迹造一个赝品出来，学徒尽可能早出赝品满足师父的要求，让师父的鉴别出错，无法辨认赝品和真迹，而师父则是尽可能从赝品找出蛛丝马迹来发现它其实不是真迹

摘要还提到，D最终收敛时给出的目标结果应该是 $\frac{1}{2}$ ，后文还会有定性和定量的分析和推理
ps：arbitrary（任意），demonstrate（证明，证实），potential（潜力 n，潜在的 adj）

引言

提到深度学习模型的优势和发展，能够对标签和分布有更加深入丰富的感知
提到深度生成模型中一个比较棘手的问题就是，类最大似然估计中复杂的概率计算，于是尝试找出一些方法来巧妙地规避这个问题
这个框架是一种minmax复合的博弈游戏

最大似然基本思想（来自百度百科）：当从模型总体随机抽取n组样本观测值后，最合理的参数估计量，应该使得从模型中抽取n组样本观测值的概率最大，而非如最小二乘法一样，旨在得到使得模型能最好地拟合样本数据的参数估计量
似然函数：

$L (θ ∣ x) = P (X = x ∣ θ)$ $L(\theta \mid x)=P(X=x \mid \theta)$
推广形式：
$L (θ 1, θ 2, \dots θ k) = \prod i = 1 n P (x 1; θ 1, \dots, θ k)$ $L(\theta_1, \theta_2, \ldots \theta_k)=\prod_{i=1}^{n}P(x_1; \theta_1, \ldots , \theta_k)$

提出的框架适用于各种训练算法以及最优化算法，本文将在实验中使用MLP（多层感知机）作为GAN框架的实验对象，使用MLP去对噪音数据去噪，并使用MLP作为检验模型D

对抗网络

这一部分是给出对抗网络的基本概念，让读者有一个大致的认识
首先给出真实的数据分布 $x$ ，G对它的描述是 $p_g$ ，另外还有一个预定义好的噪音变量 $p_z(z)$ ，模型G被定义为一个可微函数 $G(z; \theta_g)$ ， $z$ 就是其输入， $\theta_g$ 就是其参数
所以 $G: input(z), output: P_g$

然后定义鉴别函数 $D(x; \theta_d)$ ， $D: input(x), output: value$ ，D输出的就是一个标量，用于表示输入的 $x$ 来自真实数据而非G的生成数据的概率，D的训练过程就是最大化概率：将正确的标签同时分配给训练样本和G的输出的概率
这里可能有疑惑，明明D就给G挑刺的，为什么还要这么训练呢？首先想一下，师父如果很水，不分青红皂白给学徒打低分，那么整个过程还有意义吗？首先要训练出一个经验丰富，很少犯错，铁面无私的师父来才对（个人理解）

而G的训练目标就是最小化 $\log(1-D(G(z)))$ ，综合的最优化问题 $\min \limits_G \max \limits_D V(D, G)$ ，详见：式(1)
转化为最大化 $\log(D(G(z)))$ 的对偶问题，目的是让最终整体的复合最优化问题在理论上可收敛： $min \rightarrow \leftarrow max$