评价度量指标之BLEU，METEOR，ROUGE，CIDEr

最新推荐文章于 2025-04-14 17:31:58 发布

dagongji10

最新推荐文章于 2025-04-14 17:31:58 发布

阅读量1.2w

点赞数 18

分类专栏：随手记

本文链接：https://blog.csdn.net/DaGongJiGuoMaLu09/article/details/103562269

版权

随手记专栏收录该内容

15 篇文章

订阅专栏

在 VTT (Video to Text) 任务中，需要衡量模型输出的视频描述语句的准确性，因为衡量的对象是一个个的自然语言文本，所以通常会选择自然语言处理领域的相关评价指标。这些指标原先都是用来度量机器翻译结果质量的，并且被证明可以很好的反映待评测语句的准确性，主要包含4种：BLEU，METEOR，ROUGE，CIDEr。

1、BLEU

BLEU(Bilingual Evaluation understudy，双语互译质量评估)是一种流行的机器翻译评价指标，一种基于精确度的相似度量方法，用于分析候选译文中有多少 $n$ 元词组出现在参考译文中，由IBM于2002年提出。假设， $c_i$ 表示候选译文（也就是GT），该候选译文对应的一组参考译文（也就是模型预测出来的语句）可以表示为 $S_i=\{s_{i1}, s_{i2}, \dots, s_{im}\}$ ；将候选译文 $c_i$ 中所有相邻的 $n$ 个单词提取出来组成一个集合 $n - g r a m$ ，一般取 $n = 1, 2, 3, 4$ ；用 $\omega_k$ 表示 $n - g r a m$ 中的第 $k$ 个词组， $h_k(c_i)$ 表示第 $k$ 个词组 $\omega_k$ 在候选译文 $c_i$ 中出现的次数， $h_k(s_{ij})$ 表示第 $k$ 个词组 $\omega_k$ 在参考译文 $s_{ij}$ 中出现的次数。此时，在 $n - g r a m$ 下参考译文和候选译文 $c_i$ 的匹配度计算公式就可以表示为 $p_{n}(c_i, S)=\frac{\sum_{k} \min \left(h_{k}\left(c_{i}\right)， \max _{j \in m} h_{k}\left(s_{i j}\right)\right)}{\sum_{k} h_{k}\left(c_{i}\right)}$ 分子表示先取词组 $\omega_k$ 在参考译文中出现的最大次数，然后取它和 $\omega_k$ 在候选译文中出现次数的较小者，也就是该词组在参考译文和候选译文中出现的最小次数，最后将每个 $\omega_k$ 对应的最小次数求和；分母则表示所有词组在候选译文中出现的次数。下图给出了一个具体的示例，分别是 1-gram、2-gram、3-gram 和 4-gram 时的匹配度：
在这里插入图片描述
一般来说, $n$ 取值越大，参考译文就越难匹配上，匹配度就会越低。 $1 - g r a m$ 能够反映候选译文中有多少单词被单独翻译出来，也就代表了参考译文的充分性； $2 - g r a m 、 3 - g r a m 、 4 - g r a m$ 值越高说明参考译文的可读性越好，也就代表了参考译文的流畅性。
当参考译文比候选译文长（单词更多）时，这种匹配机制可能并不准确，例如上面的参考译文如果是 $T h e$ $c a t$ ，匹配度就会变成1，这显然是不准确的；为此我们引入一个惩罚因子 $BP(c_i, s_{ij})=\left\{\begin{array}{cc}{1,} & {l_{c_i}>l_{s_{ij}}} \\ {\mathrm{e}^{1-\frac{l_{s_{ij}}}{l_{c_i}}},} & {l_{c_i} \leq l_{s_{ij}}}\end{array}\right.$ $l$ 表示各自的长度。最终，BLEU的计算公式就是 $\mathrm{BLEU}=\mathrm{BP} \cdot \exp \left(\sum_{n=1}^{N} w_{n} \log p_{n}\right)$ $w_n$ 代表每一个 n-gram 的权重，一般 $n$ 最大取4，所以 $w_n=0.25$ 。（参考）

BLEU 更偏向于较短的翻译结果，它看重准确率而不注重召回率（n-gram 词组是从候选译文中产生的，参考译文中出现、候选译文中没有的词组并不关心）；原论文提议数据集多设置几条候选译文，4条比较好，但是一般的数据集只有一条。

2、ROUGE

BLEU 是统计机器翻译时代的产物，因为机器翻译出来的结果往往不通顺，所以BLEU更关注翻译结果的准确性和流畅度；到了神经网络翻译时代，神经网络很擅长脑补，自己就把语句梳理得很流畅了，这个时候人们更关心的是召回率，也就是参考译文中有多少词组在候选译文中出现了。
ROUGE（recall-oriented understanding for gisting evaluation）就是这样一种基于召回率的相似性度量方法，主要考察参考译文的充分性和忠实性，无法评价参考译文的流畅度，它跟BLEU的计算方式几乎一模一样，但是 n-gram 词组是从参考译文中产生的。分为4种类型：

ROUGE	解释
ROUGE-N	基于 N-gram 的共现（共同出现）统计
ROUGE-L	基于最长共有子句共现性精度和召回率 Fmeasure 统计
ROUGE-W	带权重的最长共有子句共现性精度和召回率 Fmeasure 统计
ROUGE-S	不连续二元组共现性精度和召回率 Fmeasure 统计

3、METEOR

相比于上面两个标准而言，METEOR 显得更加人性化，它关注到那些翻译准确、但是和候选译文还是对不上的参考译文，比如参考译文用了候选译文的同义词。METEOR 需要 WordNet 扩充同义词集，同时需要考虑单词词性（比如like、likes应该都算对）；在计算方式上它融合了准确率、召回率，利用二者的调和平均值来作为评判标准。
$\begin{aligned} Pen&=\gamma\left(\frac{c h}{m}\right)^{\theta} \\ F_{\text {mean}} &=\frac{P_{m} R_{m}}{\alpha P_{m}+(1-\alpha) R_{m}} \\ METEOR&=(1-Pen) F_{m e a n} \end{aligned}$ 其中， $\begin{aligned} {P_{m}=\frac{|m|}{\sum_{k} h_{k}\left(c_{i}\right)}} \\ {R_{m}=\frac{|m|}{\sum_{k} h_{k}\left(s_{i j}\right)}} \end{aligned}$
分别就对应着 BLEU、ROUGE 的准确率、召回率计算方法， $\gamma、\theta、\alpha$ 为用于评价的默认参数。详细的算法查看原论文，计算的话可以调用已有的java库，免去了手动实现的麻烦。