论文连接:对抗网络
莫凡对抗网络介绍: 莫凡对抗
参考译文: CSDN
1. Abstract
- G: captures the data distribution
- D: estimates the probability that a sample came from the training data rather than G
G的训练过程就是要使得D犯错的可能性最大。
G和D由多层感知器定义,整个系统由后向传递训练。
在样本的训练或生成过程中,不需要任何马尔可夫链或展开的近似推理网络。
Markov chains 是什么: 知乎
- 简短来说,马尔可夫过程就是在已经知道过程‘现在’的条件下,其‘将来’不依赖‘过去’。比如投硬币,第一次投硬币,无论是正面还是反面,对于第二次投硬币的结果没有任何影响。但是第一次和第二次投硬币,有个时间顺序;只是这个时间顺序,并没有对这两件事情各自有什么影响。
- 而马尔可夫链就是时间、状态都是离散的马尔可夫过程。
多层感知机: 知乎
- 感觉就是至少包含一个隐层( + 输入输出层)的网络
2. Introduction
Discriminative model (D)
- 判断sample是原始数据还是生成器生成
- detect生成器的作品
Generative model
- 伪造者(生成接近原始数据的作品)
G通过多层感知器传递随机噪声生成样本
Sample from G: forward propagation
Train: use the highly successful backpropagation and dropout algorithms
3. Related work
RBMs (restricted Boltzmann machines): 具有潜在变量的无向图模型 知乎
- 感觉就是简单的全连接层
- RBMS, DBMS与其变体的交互表示为未归一化势函数的乘积,由随机变量所有状态的全局求和/积分归一化。
势函数:
DBNs (Deep belief networks): 包含一个无向层和多个有向层的混合模型,计算复杂度高
NCE (noise-contrastive estimation): 使用固定噪声分布,当模型在一小部分观察变量中学习到一个近似正确的分布后,学习速率迅速下降。
NCE虽说不用似然函数的估计或约数的选择准则,但他需要知道先验概率密度知识用来分析指定一个规范化的常量。
标准化 = 归一化
GSNs (generative stochastic network): 扩展了广义去噪自动编码器,可看作是定义了一个参数化的马尔可夫链。
对抗网络中不需要反馈循环,不需要马尔可夫链进行抽样,能更好的利用分段线性单元。
4. Adversarial Nets
重点理解这个式子
其中D(x)代表的是x来自于真实数据分布而不是生成器的概率。对抗的关键在于,police(D)先要检测出哪一张图片是真的(前者),而 counterfeiters (G) 想让自己的作品不被police发现(后者)。
然而,在训练初期G的生成效果很差,导致log(1-D(G(z)))饱和。为了避免这一个问题,初期可用log(D(G(z))来替代log(1-D(G(z)))。
- 蓝线:D 黑线: Data generating distribution 绿线: G
- 朝上的箭头显示映射x=G(z)如何将非均匀分布pg作用在转换后的样本上。
D收敛公式为:
a, b, c情况下,一开始D趋向于1,因为Pg小Pd大,生成器生成的效果差;最后趋向于0,我觉得是因为过拟合的原因,D觉得所有图片都是G生成的,Pd=0
d中,经过若干步训练之后,DG性能足够且达到上限,此时Pg=Pd,D = 1/2
5. Theoretical Results
一大堆证明:
KL散度: CSDN
KL散度,即为相对熵,主要是衡量两个随机分布之间的距离,当两个随机分布相同时,它们的相对熵为零,当两个随机分布的差别增大时,它们的相对熵也会增大。所以相对熵(KL散度)可以用于比较文本的相似度,先统计出词的频率,然后计算KL散度就行了。
- 最后C=-log(4)为全局最小,其唯一解就是Pg = Pdata
- 最后Pg能收敛到Pdata
最终笔记
6. Experiment
展示用不同的数据集不同的激活函数下的输出结果