ChatGPT模型采样算法详解

JarodYv

已于 2023-10-24 20:31:36 修改

阅读量1.9w

点赞数 33

分类专栏：生成AI 文章标签：算法 nlp 人工智能 ChatGPT 深度学习

于 2023-02-15 11:00:00 首次发布

本文链接：https://blog.csdn.net/jarodyv/article/details/128994176

版权

生成AI 专栏收录该内容

42 篇文章 180 订阅

订阅专栏

ChatGPT 模型采样算法详解

ChatGPT 所使用的模型——GPT（Generative Pre-trained Transformer）模型有几个参数，理解它们对文本生成任务至关重要。其中最重要的一组参数是 temperature 和 top_p。二者控制两种不同的采样技术，用于因果语言模型（Causal language models）中预测给定上下文情景中下一个单词出现的概率。本文将重点讲解 temperature 和 top_p 的采样原理，以及它们对模型输出的影响。

文章目录

理解因果语言模型中的采样

假设我们训练了一个描述个人生活喜好的模型，我们想让它来补全“我喜欢漂亮的___”这个句子。一般语言模型会按照下图的流程来工作：

在这里插入图片描述

模型会查看所有可能的单词，并根据其概率分布从中采样，以预测下一个词。为了方便起见，假设模型的词汇量不大，只有：“大象”、“西瓜”、“鞋子”和“女孩”。通过下图的词汇概率我们可以发现，“女孩”的选中概率最高（ $p = 0.664$ ），“西瓜”的选中概率最低（ $p = 0.032$ ）。

在这里插入图片描述

上面的例子中，很明显“女孩”最可能被选中。因为人类对于单一问题在心智上习惯采用 “贪心策略”，即选择概率最高的事件。

在这里插入图片描述

永远选择分数或概率最大的token，这种策略叫做“贪心策略”。贪心策略符合人类的心智，但是存在严重缺陷。

但是上面这种策略用在频繁交互的场景下会有一个显著缺陷——如果我们总是选择最可能的单词，那么这个词会反复不断被强化，因为现代语言模型中大多数模型的注意力只集中在最近的几个词（Token）上。这样生成的内容将非常的生硬和可预测，人们一眼就能看出是机器生成的且一点也不智能。

如何让我们的模型不那么具有确定性，让它生成的内容用词更加活跃呢？为此，我们引入了基于分布采样的生成采样算法。但是传统的采样方法会遇到了一个问题：如果我们有 5 万个候选词（Token），即使最后 2.5 万个极不可能出现的长尾词汇，它们的概率质量也可能会高达 30%。这意味着，对于每个样本，我们有 1/3 的机会完全偏离原来的“主题”。又由于上面提到的注意力模型倾向于集中在最近出现的词上，这将导致不可恢复的错误级联，因为下一个词严重依赖于最近的错误词。

为了防止从尾部采样，最流行的方法是 Top-k 采样和温度采样。

Top-k 采样

Top-k 采样是对前面“贪心策略”的优化，它从排名前 k 的 token 中进行抽样，允许其他分数或概率较高的 token 也有机会被选中。在很多情况下，这种抽样带来的随机性有助于提高生成质量。

在这里插入图片描述

添加一些随机性有助于使输出文本更自然。
上图示例中，我们首先筛选似然值前三的token，然后根据似然值重新计算采样概率。

通过调整 k 的大小，即可控制采样列表的大小。“贪心策略”其实就是 k=1 的 top-k 采样。

在这里插入图片描述

Top-p 采样

ChatGPT 实际使用的不是 Top-k 采样，而是其改进版——Top-p 采样。

Top-k 有一个缺陷，那就是“k 值取多少是最优的？”非常难确定。于是出现了动态设置 token 候选列表大小策略——即核采样（Nucleus Sampling）。下图展示了 top-p 值为 0.9 的 Top-p采样效果：

在这里插入图片描述

在 top-p 中，根据达到某个阈值的可能性得分之和动态选择候选名单的大小。

top-p 值通常设置为比较高的值（如 0.75），目的是限制低概率 token 的长尾。我们可以同时使用 top-k 和 top-p。如果 k 和 p 同时启用，则 p 在 k 之后起作用。

温度采样

温度采样受统计热力学的启发，高温意味着更可能遇到低能态。在概率模型中，logits 扮演着能量的角色，我们可以通过将 logits 除以温度来实现温度采样，然后将其输入 Softmax 并获得采样概率。

越低的温度使模型对其首选越有信心，而高于 1 的温度会降低信心。0 温度相当于 argmax 似然，而无限温度相当于于均匀采样。

温度采样中的温度与玻尔兹曼分布有关，其公式如下所示：
$\rho_i = \frac{1}{Q}e^{-\epsilon_i/kT}=\frac{e^{-\epsilon_i/kT}}{\sum_{j=1}^M e^{-\epsilon_j/kT}}$
其中 $\rho_i$ 是状态 $i$ 的概率， $\epsilon_i$ 是状态 $i$ 的能量， $k$ 是波兹曼常数， $T$ 是系统的温度， $M$ 是系统所能到达的所有量子态的数目。

有机器学习背景的朋友第一眼看到上面的公式会觉得似曾相识。没错，上面的公式跟 Softmax 函数 $Softmax(z_i) = \frac{e^{z_i}}{\sum_{c=1}^Ce^{z_c}}$ 很相似，本质上就是在Softmax 函数上添加了温度（T）这个参数。Logits 根据我们的温度值进行缩放，然后传递到 Softmax 函数以计算新的概率分布。