模拟上帝之手的对抗博弈——GAN背后的数学原理

最新推荐文章于 2024-02-04 13:11:43 发布

AI周红伟

最新推荐文章于 2024-02-04 13:11:43 发布

阅读量897

点赞数

作者：李乐 CSDN专栏作家

简介

深度学习的潜在优势就在于可以利用大规模具有层级结构的模型来表示相关数据所服从的概率密度。从深度学习的浪潮掀起至今，深度学习的最大成功在于判别式模型。判别式模型通常是将高维度的可感知的输入信号映射到类别标签。训练判别式模型得益于反向传播算法、dropout和具有良好梯度定义的分段线性单元。然而，深度产生式模型相比之下逊色很多。这是由于极大似然的联合概率密度通常是难解的，逼近这样的概率密度函数非常困难，而且很难将分段线性单元的优势应用到产生式模型的问题。

基于以上的观察，作者提出了产生对抗网络。顾名思义，产生对抗网络包含两个网络：产生器和判别器。产生器负责伪造一些数据，要求这些数据尽可能真实（尽可能服从只有上帝知道的概率分布），而判别器负责判别给定数据是伪造的（来自产生器生成的数据），还是来自由上帝创造的真实分布。至此，我们不得不佩服作者如此的问题形式化。整个过程中就是在博弈。产生器尽可能伪造出真实的数据，而判别器尽可能提高自身的判别性能。

这样一种问题形式化实际上是一种通用框架，因为判别器和生成器可以是任何一种深度模型。为了简单起见，该篇文章只利用多层感知机，而且生成器所生成的样本是由随机噪声得到的。利用这种方法，整个模型的训练融入了之前无法利用的反向传播算法和dropout. 这个过程中不需要近似推测和马尔科夫链。

产生对抗网络

这部分将具体介绍产生对抗网络模型，并详细推导出GAN的优化目标。

简单起见，生成器和判别器都基于多层感知神经元。对于生成器，我们希望它是一个由噪声到所希望生成数据的一个映射；对于判别器，它以被考查的数据作为输入，输出其服从上帝所定义的概率分布的概率值。下图清晰地展示了这个过程。

图片描述

假设我们有包含 m 个样本的训练集 S={x(1),...,x(m)} . 此外，任给一种概率密度函数 pz(z) （当然，在保证模型复杂度的前提下，相应的概率分布越简单越好），我们可以利用随机变量 Z∼pz(z) 采样得到 m 个噪声样本 {z(1),...,z(m)} . 由此，我们可以得到似然函数

L (x (1), . . ., x (m), z (1), . . ., z (m) | θ g, θ d) = \prod i = 1 m D (x (i)) I {x (i) \in Data} (1 - D (x (i))) I {x (i) \notin Data} \prod j = 1 m D (G (x (j))) I {G (x (j)) \in Data} (1 - D (G (x (j)))) I {G (x (j)) \notin Data} = \prod i = 1 m D (x (i)) \prod j = 1 m (1 - D (G (x (j))))

进一步，得到对数似然

l o g L = l o g ⎛ ⎝ \prod i = 1 m D (x (i)) \prod j = 1 m (1 - D (G (x (j)))) ⎞ ⎠ = \sum i = 1 m l o g D (x (i)) + \sum j = 1 m l o g (1 - D (G (z (j))))

由大数定律，当 m→∞ 时，我们用经验损失来近似期望损失，得

l o g L \approx E x \sim p d a t a (x) [l o g D (x)] + E z \sim p z (z) [l o g (1 - D (x))]

回到我们的初衷：整个过程中就是在博弈。产生器尽可能伪造出真实的数据，而判别器尽可能提高自身的判别性能。注意到我们刚刚构造的似然函数是针对判别器 D(⋅) 的优化目标函数。因此，我们一方面希望对判别器的可学习参数优化，极大化对数似然函数，另一方面我们希望对判别器的可学习参数优化，极小化对数似然函数。将此形式化得到我们的优化目标：

m i n G m a x D V (D, G) = E x \sim p d a t a (x) [l o g D (x)] + E z \sim p z (z) [l o g (1 - D (x))]

实验效果

下面我们来欣赏一下伪装上帝的效果吧！

图片描述

每张图的最右侧一栏是在训练集中的与生成样本的最近邻样本。可见，模型在没有记忆训练集的情况下生成了多样化的类似风格的图片。不像其他生成模型的可视化那样，这些图片都是由模型分布直接生成的，而不是利用条件概率的方法。并且，这些图片不像利用马尔科夫链采样过程那样所生成的图像之间是不相关的。(a)(b)(c)(d)依次是MNIST, TFD, CIFAR-10(全连接模型), CIFAR-10(卷积判别器和反卷积生成器)

附录

A. K-L散度

在概率论和信息论中，K-L散度，也称之为信息增益，是衡量两个概率分布差异的一种“度量”。我们首先给出K-L散度的定义。分为离散形式和连续形式。

对于离散形式，给定两个离散型随机变量所对应的概率函数 P 和 Q ，两者的K-L散度定义为

D K L (P ∥ Q) : = \sum i P (i) l n P ( i ) Q ( i ) = E i \sim P (i) [l n P ( i ) Q ( i )]

对于连续形式，给定两个连续型随机变量所对应的概率密度 p 和 q ，两者的K-L散度定义为

D K L (p ∥ q) : = \int \infty - \infty p (x) l n p ( x ) q ( x ) d x = E x \sim p (x) [l n p ( x ) q ( x )]

定义很抽象，下面我们对其进行直观的解读。注意到之所以这种“度量”是加引号的，因为它并不符合数学上真正度量的公理之一，即对称性。也就是说 DKL(p∥q)≠DKL(q∥p) . 那么前后位置的差异代表什么实际含义呢？

前置位，如定义式中的 P （或 p ）可以理解为数据的真实分布，而 Q （或 q ）是模型对真实分布的一种近似。另一种理解是， DKL(P∥Q) 表示从先验Q到后验P带来的信息增益。

K-L散度有如下几个重要性质：

（1） K-L散度是具有良好定义的，当且仅当，当对于某些 x , q(x)=0 , 一定有 p(x)=0 ；

（2）对于某些 x ，当 p(x)=0 ，一定有 p(x)lnp(x)q(x)=0 ；（因为 limx→0xlnx=0 ）

（3） DKL(p∥q)≥0 等号成立的条件是 p=q .

下面证明一下最后一条性质。

D K L (p ∥ q) = - \int \infty - \infty p (x) l n q ( x ) p ( x ) d x \geq - \int \infty - \infty p (x) (q ( x ) p ( x ) - 1) = 0

证毕。

B. 泛函变分

泛函变分实际上是函数微分的一种自然的推广。

对于给定泛函 F[y]:y(x)↦K ，其中 K=R/C ，我们可以仿照泰勒公式，定义泛函的展开形式，对于任意 η(⋅) ，

F [y (x) + ϵ η (x)] = F [y (x)] + ϵ \int (δ F δ y) (x) η (x) d x + o (ϵ 2)

C. 测度论中的随机变量换元

证明：

\int Ω p z (z) l o g (1 - D (G (z))) d z = \int χ p g (x) l o g (1 - D (x)) d x

其中

x=G(z) .

我们首先定义测度空间 (Ω,F,P) ，其中 Ω 为 z 的样本空间， F 为 σ -代数。进一步，易证 G(⋅) 是可测函数： (Ω,F)↦(χ,G) ，其中 χ 为 x 的样本空间， G 为 χ 的 σ -代数。因此，我们有

\int Ω p z (z) l o g (1 - D (G (z))) d z = \int Ω l o g (1 - D (G (z))) d P (z) = \int χ l o g (1 - D (x)) d P \circ G - 1 = \int χ l o g (1 - D (x)) d P G = \int χ p g (x) l o g (1 - D (x)) d x

其中 PG 为 x 的分布。

证毕。

AI周红伟

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
模拟上帝之手的对抗博弈——GAN背后的数学原理

模拟上帝之手的对抗博弈——GAN背后的数学原理深度学习人工智能机器学习神经网络神经网络与机器学习-英文版阅读1984 作者：李乐 CSDN专栏作家简介深度学习的潜在优势就在于可以利用大规模具有层级结构的模型来表示相关数据所服从的概率密度。从深度学习的浪潮掀起至今，深度学习的最大成功在于判别式模型。判别式模型通常
复制链接

扫一扫