NLP中的Perplexity是什么？

NLP_wendi

已于 2022-06-21 18:38:27 修改

阅读量5.9k

点赞数 3

分类专栏： NLP

于 2022-06-21 15:38:16 首次发布

本文链接：https://blog.csdn.net/qq_32275289/article/details/125391298

版权

自然语言处理机器学习人工智能

NLP 专栏收录该内容

18 篇文章

订阅专栏

Perplexity，翻译为中文的意思为：困惑、混乱。在NLP中，表示语言模型的困惑度，是交叉熵的指数形式，可以作为语言模型的评价指标。Perplexity越低，说明模型拟合效果越好。Perplexity 计算公式如下：
$p(w_1, w_2, w_3,...,w_m)^{-1/m}\\ = \sqrt[m]{\prod_{i=2}^m \frac{1}{ p(w_i|w_1, w_2, w_3,...,w_{i-1})}}$
简单来说，perplexity刻画的是语言模型预测一个语言样本的能力，比如已经知道了 $w_1, w_2, w_3,...,w_m)$ 这句话会出现在语料库之中，那么通过语言模型计算得到这句话的概率越高，说明语言模型对这个语料库拟合的越好。

在语言模型的训练中，通常采用perplexity的对数表达形式：

$\text{log}(perplexity(S)) =-\frac{1}{m} \sum_{i=2}^{m} p(w_1, w_2, w_3,...,w_m)$

在数学上，log perplexity 可以看作真实分布与预测分布之间的交叉熵 Cross Entropy, 交叉熵描述了两个概率分布之间的一种距离，假设 $x$ 是一个离散变量， $u (x)$ $v (x)$ 是两个与 $x$ 相关的概率分布，那么 $u, v$ 之间的交叉熵的定义是分布 $u$ 下 $-\text{log}(v(x))$ 的期望值：
$E_u[-log(v(x)]=-\sum_x{u(x)log(v(x))}$

我们把 $x$ 看作是单词， $u (x)$ 表示每个位置上单词的真实分布，
$u(x|w_1, w_2, w_3,...,w_{i-1}) = \begin{cases} 1& \textstyle{x=w_i}\\ 0& \textstyle{x\neq w_i} \end{cases}$

$v (x)$ 是模型的预测分布 $p(w_i|w_1, w_2, w_3,...,w_{i-1})$ ，那么即有
$=-\sum_x{u(x)log(v(x))}\\ =-\frac{1}{m} \sum_{i=2}^{m} (\sum_xu(x|w_1, w_2, w_3,...,w_{i-1})p(w_i|w_1, w_2, w_3,...,w_{i-1}))\\ =-\frac{1}{m} \sum_{i=2}^{m} (1\times p(w_i|w_1, w_2, w_3,...,w_{i-1}) + \sum_{x\neq w_i} 0\times p(w_i|w_1, w_2, w_3,...,w_{i-1}))\\ =-\frac{1}{m} \sum_{i=2}^{m} p(w_i|w_1, w_2, w_3,...,w_{i-1})\\ = \text{log}(perplexity(S))$