点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
现有的生成式模型方法通常基于用最大似然训练的显式概率模型,或者用对抗训练学习的隐式采样模型。前者需要变分推理,或者模型具有特殊设计的结构。后者的训练通常极不稳定。
在 AI TIME PhD NeurIPS 专场二中,我们有幸邀请到斯坦福大学计算机系博士生宋飏,他们提出了一种基于估计数据分布梯度的新方法,来克服以上两种模型的缺点。
宋飏:本科毕业于清华大学物理系,现为斯坦福大学计算机系博士生,导师为Stefano Ermon教授。致力于研究具有灵活的模型结构,稳定的训练方式,优异的样本质量,以及能够自由控制的新型生成式模型。
一、背景
近些年来,生成式模型经历了迅猛的发展。目前在图像生成方面,生成式模型可以生成极为逼真的图片。
图1 生成式模型生成的人脸图像
在自然语言处理方面,生成式模型也能够产生非常连贯和通顺的句子。如图2所示的句子补全,输入the best generative model is(最好的生成模型是),生成式模型给出了“最好的生成式模型是能够随着时间不断的演化,并且可以预测大脑整体的结构与功能。”这样的完整句子。
图2 生成式模型句子补全
1.1 生成式模型的工作方式
生成式模型本质上是一组概率分布。如下图所示,左边是一个训练数据集,里面所有的数据都是从某个数据pdata中独立同分布取出的随机样本。右边就是其生成式模型(概率分布),在这种概率分布中,找出一个分布pθ使得它离pdata的距离最近。接着在pθ上采新的样本,可以获得源源不断的新数据。
图3 生成式模型的工作方式
1.2 现有的生成式模型
由于生成式模型是一组概率分布,根据模型如何去表示这个概率分布,模型可以被分为隐式生成式模型和显式生成式模型。
1.2.1 隐式生成式模型
GAN生成式对抗网络就是隐式生成式模型,