如何计算大语言模型（LLM）困惑度（Perplexity）

最新推荐文章于 2025-02-28 14:22:06 发布

向内求解

最新推荐文章于 2025-02-28 14:22:06 发布

阅读量1.8k

点赞数 27

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/qq_22208399/article/details/144855391

版权

大语言模型（LLM）的发展日新月异，越来越多的开源权重的模型被释放出来。这些模型能够在消费级的硬件上跑起来。所谓跑起来，我们是指大模型的推理（LLM的预训练成本依然还是个人很难承担的）可以运行起来。大模型的量化一直是学术界以及工业界都持续关注的方向。

所谓”模型量化“，是指让原本单位权重为float16（16bit）的模型，能以单位权重为8bit，4bit，甚至1bit在内存（显存）中加载，然后进行模型推理。单位权重为float16的模型量化为8bit，显然运行时候的静态内存就直接减少一半，其资源节约不言而喻；然而我们希望的是”不给马儿吃草，还希望马儿跑得块“，即节约资源的同时还希望不损失模型所带来的智能化的体验。

例如，我们有原始模型 $M$ ，以及量化到8bit的模型 $M_q^{(8)}$ ，假设我们使用 $M(\text{input})$ 表示模型 $M$ 对于输入 $\text{input}$ 所给出的输出结果；

如果 $\text{input}=$ “你好，请为我推荐一个附近的餐厅”，而两个模型的输出结果分别为：

$M(\text{input})=$ “由于我不知道您所在的位置，所以假设您现在在北京，我会为您推荐全聚德烤鸭”

$M_q^{(8)}(\text{input})=$ “我为您推荐的是烤鸭，它在北京广受欢迎”

对比 $M(\text{input})$ 以及 $M_q^{(8)}(\text{input})$ ，显然我们认为前者是一个更好的回答，那么 $M_q^{(8)}$ 和 $M$ 之间的差距该如何衡量？

先说答案：在不同的数据集上，度量 $M$ 以及 $M_q^{(8)}$ 的Perplexity，然后进行对比， $M_q^{(8)}$ 与 $M$ 在各数据集上的Perplexity的结果越接近说明 $M_q^{(8)}$ 作为量化之后的模型其推理性能损失的越少。

那么什么是Perplexity？请大家继续往下看：

1. 语言模型的简单回顾

在介绍Perplexity之前，我们先回顾一下什么是语言模型，语言模型就是求一个序列在这个语言（数据）中的出现的概率。

例如我们有如下的语言 $L$ （该语言的数据只包含下面的一个长度为6的字符串）：

我有一个宠物

$w_i$ 为以上语言 $L$ 中任意一个字符，例如”我“； $w_1,w_2,\cdots w_s$ 为语言 $L$ 中出现长度为 $s$ 的连续的字符序列； $P(w_1,w_2,...w_s)$ 表示序列 $w_1,w_2,...w_s$ 在这个语言中出现的概率； $C(w_1,w_2,...w_s)$ 表示序列 $w_1,w_2,...w_s$ 在语言 $L$ 中出现的次数；且我们定义条件概率 $P(w_l \mid w_1,w_2,...w_{s-1})$ 取值计算如下：
$\begin{align*} P(w_s \mid w_1,...w_{s-1}) &= \frac{C(w_1,...w_s) }{C(w_1,...w_{s-1} w_{x})} \end{align*} \qquad (1)$