生成对抗网络

最新推荐文章于 2024-01-03 22:19:28 发布

bbzz2

最新推荐文章于 2024-01-03 22:19:28 发布

阅读量1.1k

点赞数

分类专栏：深度学习

深度学习专栏收录该内容

64 篇文章 0 订阅

订阅专栏

2014Generative Adversarial Nets(精读2017.3.2)

Goodfellow, Bengio et al.
NIPS2014
蒙特利尔大学

摘要

一种新的生成式框架，同时训练两个模型，一个称为“产出模型” G，另一个称为“检验模型” D
G用于描述数据的分布（或者说是生成尽可能拟合真实数据的分布），D用于对G各个迭代轮次产生的结果进行评估，D的目标是尽可能评估得出真实分布比G生成的“高仿分布”更加真实，而G的目标就是尽可能使生成的结果让D的辨认出现错误（注意，这里不同于某些解读说的：尽量生成出更真实的分布）

举一个拙劣的比喻就是：假设我们来到一家古玩店，G是一个学徒，D是他的师父，师父让学徒对着真迹造一个赝品出来，学徒尽可能早出赝品满足师父的要求，让师父的鉴别出错，无法辨认赝品和真迹，而师父则是尽可能从赝品找出蛛丝马迹来发现它其实不是真迹

摘要还提到，D最终收敛时给出的目标结果应该是 12 ，后文还会有定性和定量的分析和推理
ps：arbitrary（任意），demonstrate（证明，证实），potential（潜力 n，潜在的 adj）

引言

提到深度学习模型的优势和发展，能够对标签和分布有更加深入丰富的感知
提到深度生成模型中一个比较棘手的问题就是，类最大似然估计中复杂的概率计算，于是尝试找出一些方法来巧妙地规避这个问题
这个框架是一种minmax复合的博弈游戏

最大似然基本思想（来自百度百科）：当从模型总体随机抽取n组样本观测值后，最合理的参数估计量，应该使得从模型中抽取n组样本观测值的概率最大，而非如最小二乘法一样，旨在得到使得模型能最好地拟合样本数据的参数估计量
似然函数：

$L (θ ∣ x) = P (X = x ∣ θ)$
推广形式：
$L (θ 1, θ 2, \dots θ k) = \prod i = 1 n P (x 1; θ 1, \dots, θ k)$

提出的框架适用于各种训练算法以及最优化算法，本文将在实验中使用MLP（多层感知机）作为GAN框架的实验对象，使用MLP去对噪音数据去噪，并使用MLP作为检验模型D

对抗网络

这一部分是给出对抗网络的基本概念，让读者有一个大致的认识
首先给出真实的数据分布 x ，G对它的描述是 pg ，另外还有一个预定义好的噪音变量 pz(z) ，模型G被定义为一个可微函数 G(z;θg) ， z 就是其输入， θg 就是其参数
所以 G:input(z),output:Pg

然后定义鉴别函数 D(x;θd) ， D:input(x),output:value ，D输出的就是一个标量，用于表示输入的 x 来自真实数据而非G的生成数据的概率，D的训练过程就是最大化概率：将正确的标签同时分配给训练样本和G的输出的概率
这里可能有疑惑，明明D就给G挑刺的，为什么还要这么训练呢？首先想一下，师父如果很水，不分青红皂白给学徒打低分，那么整个过程还有意义吗？首先要训练出一个经验丰富，很少犯错，铁面无私的师父来才对（个人理解）

而G的训练目标就是最小化 log(1−D(G(z))) ，综合的最优化问题 minGmaxDV(D,G) ，详见：式(1)
转化为最大化 log(D(G(z))) 的对偶问题，目的是让最终整体的复合最优化问题在理论上可收敛： min→←max

平衡G和D的学习率是训练过程的关键，否则会产生无休止地计算或者在有限的数据集上过拟合等等现象
训练时可能需要D和G训练过程 k:1 地交替（就是让G等D几步）

理论结论

理论论证部分能在非参数设置的情形下描述清楚，理论上GAN可以无限地学习优化下去
4.1证明框架有全局最优解 pg=pdata
4.2推导GAN算法通过最优化公式(1)能得到最优解（证明算法的收敛性）

观察示例图，4个小图中，上半个图显示的是真实分布 x ，生成模型G的输出分布，以及检验模型D的状态变化，下半个图显示的是生成分布 G(z) 被强制拟合真实分布 x 时的不平衡情况，ps：虚线 D，黑点线实际的数据分布，实线 G
可以看到一开始D没有被训练好，混乱波动，经过训练之后，能够较为准确地评估G的输出对 x 的拟合程度，最终D的输出为 12 时（也就是 x 和 G(z) 一样），整个过程达到收敛

从算法1中可以看到，每 k 轮D的训练迭代后，经历一次G的训练迭代。D的优化过程同时接收两种数据：人造的噪音数据 pg(z) 的样本，真实数据 pdata(x) 的样本，使用随机梯度上升 →max ，G的优化过程通过BP接收D对G的评估，从而优化G。整个训练过程可以通过任何梯度学习的模式运转

关于全局最优解的讨论

命题1，首先设定D的理想形式（目标值）： pdata(x)pdata(x)+pg(x)
首先证明这个目标值的设定机理（同时也是推导内层 max 目标函数的最优化过程），将公式(1)改写为：

V (G, D) = \int x p d a t a (x) log (D (x)) + p g (x) log (1 - D (x)) d x

我们先暂时忽略G，将 V(G,D) 看作D的函数，并且设 D(x)=y ，在样本空间中，对于真实的数据分布 pdata(x) 设为 a ， pg(x) 设为 b ，于是，内层的目标函数被简写成:

$arg max (a log (y) + b log (1 - y))$
利用对数变换法则推导下去:
$f (y) = log (y a (1 - y) b)$
因为 log 默认的底为 10 ，所以 logY 是单调递增的，于是我们把外面的 log 去掉得到： ya(1−y)b
首先要说明，概率分布肯定都是 0⩽P⩽1 的而且 y 的定义域也是 [0,1] 。我们将 a 和 b 都设定为 0.6 ，然后大家来看一下这个函数的图像：
$y=x^{0.6(1-x)^{0.6}}$
是一个下凸函数，开口向下，所以我的再对上面的公式 f(y)=ya(1−y)b 求导，并令其 =0 ：
$f' (y) = [y a (1 - y) b]' = a y a - 1 (1 - y) b - b y a (1 - y) b - 1 = 0 ⟹ a y a - 1 (1 - y) b = b y a (1 - y) b - 1 ⟹ a (1 - y) = b y ⟹ y = a a + b$

到这里为止，D的最优形式就推导出来了，就是 pdata(x)pdata(x)+pg(x)
另外还有一点就是，检验函数D的优化过程可以理解为对条件概率 P(Y=y | x)的最大似然估计， y=1 时认为 x from pdata ， y=0 时，认为 x from pg
最后，内层最优化已经完成，现在我们把整体的目标函数改写成关于G的函激:

C (G) = E x \sim p d a t a [log p d a t a ( x ) p d a t a ( x ) + p g ( x )] + E x \sim p g [log p g ( x ) p d a t a ( x ) + p g ( x )]

然后我的开始对外层最优化过程进行推导和证明
首先给出要证明的定理1 :

C(G) 在

pg=pdata 时达到最优值

−log4 ，也就是最终的

minmaxV=−log4
我们首先假定已经达到了

pg=pdata 的平衡状态，这个时候显然

D∗G(x)=12 ，代入上面的公式，得到

C(G)=−log4
然后我们使用KL散度来衡量任意时刻

C(G) 离平衡状态的差距：

C (G) = - log 4 + K L (p d a t a ‖ p d a t a + p g 2) + K L (p g ‖ p d a t a + p g 2)

KL散度又称相对摘，用于衡量两个分布之间的差异，更准确的说是某分布A去拟合另一个分布B时需要产生的损失量，所以我们知道KL散度是有指向的，也就是说，上面那条公式的第二项与第三项不一定相等
KL散度 ⩾0 ，当且仅当 KL(a‖b) 中的 a=b 时，等号成立

为了用统一的形式衡量差距，作者又进行了一次变形，这次换成了Jensen-Shannon距离:

C (G) = log 4 + 2 \cdot J S D (p d a t a ‖ p g)

从JS距离的定义我们可知

$J S D (a ‖ b) = 1 2 K L (a ‖ a + b 2) + 1 2 K L (b ‖ a + b 2)$
所以得到了式中的 2⋅JSD(pdata‖pg)
JS.距离和KL散度一样， ⩾0 ，只有在 pdata=pg 时，等号才成立

这样就结束了证明，得到结论：只有在 pdata=pg 时， C(G) 能够达到最小值 −log4

关于算法收敛性的讨论

收敛性的证明主要是证明 pg 的优化过程能够达到全局最优解 pdata
将 V(G,D) 改写为关于 pg 的凸函数 U(pg,D) ，通过说明凸函数的次导数包含了导数，说明凸函数的优化过程最终能收敛到上面定理1已经证明的唯一全局最优解 pdata 上

实验

实验在MNIST手写数字数据集和多伦多人脸数据集，还有CIFAR-10数据集上对GAN的性能造行了检验

其他

后面还有一些关于深度生成式模型的各种优缺点什么的东西，看的论文太少，还得补补

读后思考

GAN里的G和D看上去互相依存，我的输出输入你，你的输出又输入给我，这显然是一个先有鸡还是先有蛋的问题，其实在Algorithm 1. 里面已经写的很清楚了，在算法的一开始，将非常粗糙的人工噪音数据 z 和真实数据 x 两次输入鉴别函数D，在最优化过程中对它们的组合计算值(算法1给出的公式里有)做最大化，这样 k 步之后（大循环内部的小循环），再开始优化G（其实没有D，G根本无法接收BP结果来优化自己，也说明了这个问题）。那么，如果没有人工噪音数据 z ，怎么解决冷启动问题？直接随机化一个 z 好了
引言中还有一句很经典的话，我意译一下：BP算法和dropout机制带来了神经网络和深度学习近些年的辉煌。细想一下，确实如此