大规模计算时代：深度生成模型何去何从

最新推荐文章于 2024-01-13 06:15:00 发布

PaperWeekly

最新推荐文章于 2024-01-13 06:15:00 发布

阅读量1.3k

点赞数 4

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/105445233

版权

©PaperWeekly 原创 · 作者｜Chunyuan Li

单位｜Microsoft Research Researcher

研究方向｜深度生成模型

人工智能的核心愿望之一是开发算法和技术，使计算机具有合成我们世界上观察到的数据的能力, 比如自然语言，图片等等。

每当我们建立一个模型来模仿这种能力时，该模型就称为生成模型（Generative Models）。
如果该模型涉及深度神经网络，则该模型是深度生成模型（Deep Generative Models, 简称 DGMs）。

作为深度学习中自我监督学习（self-supervised learning）技术的一个分支，DGM 特别专注于刻画数据的生成过程。这篇文章回顾了 DGM 的历史，定义和现状，并分享最新的一些研究结果。最终希望启发大家去思考一个共同的主题：如何在大规模预训练时代推进或应用深度生成模型。

历史回顾和基础知识：三种类型的深度生成模型和一个通用技巧

生成模型（Generatitve Models）在传统机器学习中具有悠久的历史，它经常与另外一个主要方法（判别模型，Discriminative Models）区分开。我们可以通过一个故事 [1] 学到它们有何不同：有两兄弟，他们具有不同的特殊能力，一个具有深入洞察事物内在的能力，而另一个善于学习所见事物之间的差异。在故事里，前者代表生成模型，而后者代表区分模型，他们的特点总结为：

生成模型：专注于使用某种内部机制来表征实际观察的事物的分布；
区分模型：专注于在不同事物之间建立决策边界。

随着深度学习的兴起，生成模型通过和深度神经网络的结合，逐渐形成了一个新的家族：深度生成模型。他们这个家族有个共同的特点，就是利用神经网络来模拟数据生成的过程。

这样以来，复杂而神秘的数据生成过程就被某个参数量一定的神经网络的给拟合出来了，加之训练这个 DGM 的数据库本身大小也是确定的，这里就会出现一个潜在的通用技巧。引用 2016 年一篇 OpenAI 博客 [2] 上的话来说：

我们用作生成模型的神经网络具有许多参数，这些参数远小于我们在训练它用的数据量，因此模型会被迫使发现并有效地内化数据的本质，从而以生成数据。

简单地做一些数学上的刻画。作为来自真实数据分布的样本, 用于建模的数据集为。深度生成模型的目标是使用参数为的深度神经网络，来建立一个描述分布，然后通过训练来不断地调整参数 θ，使得模型输出的分布去尽量接近真实数据分布。

所有 DGM 都具有上述相同的基本目标和通用技巧，但是它们处理问题的思路方式不同。根据 OpenAI 的分类法，我们这里考虑三种流行的模型类型：VAE，GAN，自回归模型（autoregressive models），详见下表：

表格1. 不同深度学习模型的对比。不同类别标记为不同的颜色，它们对应的变种也用相同的颜色展示在下面的图1里。

从小型到大型的深度生成模型转变

多年来，我们在发展 DGM 及其理论原理方面做出了许多努力，DGM 在较小的规模上现在已得到相对较好的理解。上面提到的 DGM 技巧保证模型在温和条件下可以正常运行：；许多在小规模设定下的研究已经验证了这一点。但是近期的研究表明, 预训练模型可以通过在海量数据上进行自监督学习，以获得了巨大的进步和惊人的实验结果（N 急剧增加）。

图1. 我们考虑了三种流行的深度生成模型类型：蓝色的自动回归模型（神经语言模型，或NLM），绿色的可变自动编码器（VAE）和橙色的生成对抗网络（GAN）。Transformer和BERT作为重要的文献参考点也包括在图里，但并不作为本文考察重点。图里最右边的三个新模型，是在大规模计算的时代下我们自己的工作。

上图总结了深度生成模型随时间的简短演变历史，通过两种指标来衡量：

模型大小（参数数量）
科学影响力（迄今为止的引用次数）

OpenAI 的研究人员认为，生成模型是最有前途的方法之一，可以潜在地实现用计算机了解世界的目标。

沿着这些思路，他们在 2018 年开发了 Generative Pre-training (GPT) [3]，在各种未标记文本的语料库上训练了自回归神经语言模型（neural language model，简称 NLM [4]），随后对每个特定任务进行了区分性微调，从而显着提高了多项任务的性能语言理解任务。

在 2019 年，他们将这一想法进一步扩展到 15 亿个参数，并开发了 GPT-2 [5]，该模型显示了近乎人类的语言生成能力。随着更多的计算，英伟达的 Megatron [6] 和微软的 Turing-NLG [7] 继承了相同的想法&#

最低0.47元/天解锁文章

PaperWeekly

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
大规模计算时代：深度生成模型何去何从

©PaperWeekly 原创 ·作者｜Chunyuan Li单位｜Microsoft Research Researcher研究方向｜深度生成模型人工智能的核心愿望之一是开发算法和...
复制链接

扫一扫