自然语言处理（NLP）基础知识——机器翻译Metrics（PPL、BLEU、ROUGE）

ZreviaX

于 2024-04-12 14:00:00 发布

阅读量1.1k

点赞数 26

分类专栏：自然语言处理基础知识文章标签：自然语言处理机器翻译人工智能机器学习困惑度 BLEU ROUGE

本文链接：https://blog.csdn.net/WindGrin_/article/details/137659695

版权

自然语言处理基础知识专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Metrics for Neural Machine Translation

机器翻译评价指标

Perplexity（PPL）

困惑度

用于衡量一个分布的不确定性，对于离散随机变量 $\in \mathcal{X}$ ，其概率分布为 $p (x)$ ，困惑度为

$2^{H(p)}=2^{-\sum_{x \in x} p(x) \log _{2} p(x)}$
其中 $H (p)$ 为分布 $p$ 的熵
也可用于衡量两个分布之间的差异，对于一个未知的数据分布 $p_r(x)$ 和一个模型分布 $p_{\theta}(x)$ ，我们从 $p_r(x)$ 中采样出一组测试样本 $x^{(1)}, \cdots, x^{(N)}$ ，模型分布 $p_{\theta}(x)$ 的困惑度为

$2^{H\left(p_{r}, p_{\theta}\right)}=2^{-\frac{1}{N} \sum_{n=1}^{N} \log _{2} p_{\theta}\left(x^{(n)}\right)}$
其中 $\boldsymbol{H}\left(\tilde{p}_{r}, p_{\theta}\right)$ 为样本的经验分布 $\tilde{p}_{r}$ 与模型分布 $p_{\theta}$ 之间的交叉熵
- 困惑度可以衡量模型分布与样本经验分布之间的契合程度。困惑度越低则两个分布越接近。因此，模型分布 $p_{\theta}(x)$ 的好坏可以用困惑度来评价
假设测试集合有 $N$ 个独立同分布的序列 $\left\{\boldsymbol{x}_{1: T_{n}}^{(n)}\right\}_{n=1}^{N}$ 。我们可以用模型 $p_{\theta}(x)$ 对每个序列计算其概率 $p_{\theta}\left(x_{1: T_{n}}^{(n)}\right)$ ，整个测试集的联合概率为

$\prod_{n=1}^{N} p_{\theta}\left(\boldsymbol{x}_{1: T_{n}}^{(n)}\right)=\prod_{n=1}^{N} \prod_{t=1}^{T_{n}} p_{\theta}\left(x_{t}^{(n)} \mid \boldsymbol{x}_{1:(t-1)}^{(n)}\right)$
- 模型 $p_{\theta}(x)$ 的困惑度定义为
$\begin{aligned} \operatorname{PPL}(\theta) &-2^{-\frac{1}{\tau} \sum_{n=1}^{N} \log _{2} p_{\theta}\left(x_{1: T_{n}}^{(n)}\right)} \\ &=2^{-\frac{1}{T} \sum_{n=1}^{N} \sum_{t=1}^{T_{n}} \log _{2} p_{\theta}\left(x_{t}^{(n)} \mid x_{1:(t-1)}^{(n)}\right)} \\ &=\left(\prod_{n=1}^{N} \prod_{t=1}^{T_{n}} p_{\theta}\left(x_{t}^{(n)} \mid x_{1:(t-1)}^{(n)}\right)\right)^{-1 / T} \end{aligned}$
其中 $T=\sum_{n=1}^{N} T_{n}$ 为测试数据集中序列的总长度。测试集中所有序列的概率越大，困惑度越小，模型越好

BLEU

Bilingual Evaluation Understudy

BLEU是一种衡量模型生成序列和参考序列之间的N元词组（N-Gram）重合度的算法
令 $x$ 为从模型分布 $p_{\theta}$ 中生成的一个候选（Candidate）序列， $\boldsymbol{s}^{(1)}, \cdots, \boldsymbol{s}^{(K)}$ 为从真实数据分布中采集的一组参考（Reference）序列， $\mathcal{W}$ 为从生成的候选序列中提取所有N元组合的集合，这些N元组合的精度（Precision）

$P_{N}(\boldsymbol{x})=\frac{\sum_{w \in \mathcal{W}} \min \left(c_{w}(\boldsymbol{x}), \max _{k=1}^{K} c_{w}\left(\boldsymbol{s}^{(k)}\right)\right)}{\sum_{w \in \mathcal{W}} c_{w}(\boldsymbol{x})}$
其中 $c_w(x)$ 是N元组合 $w$ 在生成序列 $x$ 中出现的次数， $c_w(s^{(k)})$ 是N元组合 $w$ 在参考序列 $s^{(k)}$ 中出现的次数。N元组合的精度 $P_N(x)$ 计算生成序列中的N元组合有多少比例在参考序列中出现
由于精度只衡量生成序列中的N元组合是否在参考序列中出现，生产序列越短，其精度会越高，因此引入长度惩罚因子（Brevity Penalty）。如果生产序列的长度短于参考序列，就对其进行惩罚

$b(\boldsymbol{x})=\left\{\begin{array}{ccc} 1 & \text { if } & l_{x}>l_{s} \\ \exp \left(1-l_{s} / l_{x}\right) & \text { if } & l_{x} \leq l_{s} \end{array}\right.$
其中 $l_x$ 为生成序列 $x$ 的长度， $l_s$ 为参考序列的最短长度
BLEU是通过计算不同长度的N元组合（N=1，2，3…）的精度，并进行几何加权平均得到

$\operatorname{BLEU}-\mathrm{N}(\boldsymbol{x})=b(\boldsymbol{x}) \times \exp \left(\sum_{N=1}^{N^{\prime}} \alpha_{N} \log P_{N}\right)$
其中， $N^{'}$ 为最长N元组合的长度， ${\alpha}_N$ 为不同N元组合的权重，一般设为 $\frac{1}{N'}$ 。BLEU的值域为 $[0, 1]$ ，越大表明生成的质量越好。但是BLEU算法只计算精度，而不关心召回率。

ROUGE

Recall-Oriented Understudy for Gisting Evaluation

ROUGE和BLEU算法类似，但ROUGE计算的是召回率
令 $x$ 为从模型分布 $p_{\theta}$ 中生成的一个候选序列， $\boldsymbol{s}^{(1)}, \cdots, \boldsymbol{s}^{(K)}$ 为从真实数据分布中采样出的一组参考序列， $\mathcal{W}$ 为从参考序列中提取N元组合的集合，ROUGE-N算法定义为

$\operatorname{ROUGE-N}(\boldsymbol{x})=\frac{\sum_{k=1}^{K} \sum_{w \in \mathcal{W}} \min \left(c_{w}(\boldsymbol{x}), c_{w}\left(s^{(k)}\right)\right)}{\sum_{k=1}^{K} \sum_{w \in \mathcal{W}} c_{w}\left(\boldsymbol{s}^{(k)}\right)}$
其中 $c_w(x)$ 是N元组合 $w$ 在生成序列 $x$ 中出现的次数， $c_w(s^{(k)})$ 是N元组合 $w$ 在参考序列 $s^{(k)}$ 中出现的次数