一文详解DeepMind最新模型SUNDAE，了解迭代去噪模型的前世今生

最新推荐文章于 2023-04-18 23:21:17 发布

PaperWeekly

最新推荐文章于 2023-04-18 23:21:17 发布

阅读量1.2k

点赞数

文章标签：机器学习人工智能算法深度学习 python

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/122183165

版权

本文介绍了迭代去噪模型的发展，从自回归式语言模型的缺陷出发，探讨了SUNDAE、CMLM、DisCo等模型的迭代生成机制。SUNDAE模型通过引入去噪自编码器的角度，优化了中间过程的建模和训练策略，提高了非自回归式生成的效率和效果。

摘要由CSDN通过智能技术生成

©作者 | 中森

单位 | 粤港澳大湾区数字经济研究院

研究方向 | 条件受控下的文本生成

近期笔者在做些去噪语言模型的预训练和迭代生成语言模型的实验和探索，在读到谷歌 DeepMind 实验室的新作圣代 SUNDAE 模型后，便决定写篇迭代生成语言模型的整理和对比。

导言：自回归式语言模型建模的缺陷

在 NLP 的文本生成（序列建模）领域，无论是开放域文本生成、主题生成、还是翻译任务，最主流的方式还是自回归式的语言建模。即给定一个序列我们使用一个神经网络来对序列里的每一个变量进行条件概率建模。而每一个变量的条件概率依赖于当前变量在序列里的所有前置变量，即＜＜。无疑，自回归式的语言模型符合人类单向阅读的直觉与思维方式，并在一系列任务里展现出了良好的效果；但它同样有其阿克琉斯之踵。首先，其对序列的单向依赖导致其无法并行，解码速度慢。

其次，当我们试图在解码过程中试图搜索最大似然序列时，自回归的语言建模要求我们在序列长度为 T，每个变量有｜V｜种可能的情况下搜索最大可能，其中 V 代表词表大小，一共有种可能。由于我们显然无法处理天文数字般的计算复杂度，我们只能依赖于贪心搜索，柱搜索等策略近似求解这个解码过程。那么，我们是否有其他方式对语言模型建模，来规避以上两个问题？

迭代去噪模型的数学假设

如果我们以类似于朴素贝叶斯的方法，假设序列里的每一个变量都是依赖于某个序列而互相间条件独立的话，我们可以将基于序列的条件概率因式分解为：

显然，将语言模型以该种方式建模的好处在于：首先，生成序列里的所有词之间条件独立，无需再按次序逐个生成，可以平行解码，极大加速解码过程。其次，因为规避了联合概率的建模，我们不再需要在一个极大的搜索空间里寻找最大似然序列，对于每一个变量，我们只需简单地对其进行 argmax 操作即可。这两个特性完美对应了以上提到的自回归式生成的缺陷。

但是，该方法最大的问题在于建模一个只依赖于输入序列的条件独立的语言模型难度远大于建模一个自回归式的语言模型！

为了缓解这个难题的同时，依然保留条件独立所带来的速度和解码优势，近几年的 NLP 学界的主流做法是引入一系列隐变量且让该隐变量的形式与输出 Y 保持一致。这样子，我们的条件概率建模便等同于在一个模型架构上进行多轮迭代生成。每一次迭代我们所获得的中间过程输出即为我们所依赖的隐变量。每一步的修正可表示为，其中是我们当前所迭代的步数。

笔者认为，将隐变量和输出Y的形式保持一致的做法实质上将朴素贝叶斯的条件独立假设打破，使得输出 Y 不仅依赖于输入 X，且依赖于生成词间的相互联系。但这种巧妙的建模方式，使我们依然可以保留平行解码的速度优势！

将多轮迭代合并起来讨论的话，我们建模的是以下式子。其中序列包含 T 个独立变量, 迭代次数。且如上文所假设，输出序列 Y 里的所有独立变量，互相对输入序列 X 条件独立，即。所以我们有