LLM(大语言模型)常用评测指标-BLEU

最新推荐文章于 2025-03-11 20:54:46 发布

ChenDuBr

最新推荐文章于 2025-03-11 20:54:46 发布

阅读量3.1k

点赞数 15

分类专栏： LLM(大语言模型)评测指标文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/qq_36485259/article/details/136604753

版权

LLM(大语言模型)评测指标专栏收录该内容

5 篇文章

订阅专栏

BLEU（Bilingual Evaluation Understudy）

BLEU 是一种广泛用于自然语言处理领域，特别是在机器翻译评估中的评分方法。它通过比较机器翻译输出和一个或多个人工翻译的参考翻译来计算分数，以此来评估翻译的质量。

计算方法

BLEU 评分的计算包括以下几个步骤：

N-gram 精度：首先计算机器翻译输出中的 n-gram（词的连续序列）与参考翻译中的 n-gram 的匹配度。这通常涉及到计算机器翻译中的每个 n-gram 在参考翻译中出现的次数，并将其与机器翻译中的 n-gram 总数进行比较。
截断：为了避免过度奖励过长的翻译，BLEU 对匹配的 n-gram 进行截断，使其总数不超过参考翻译中的对应 n-gram 数量。
加权平均：计算不同长度 n-gram 精度的加权平均值。通常，对于 1-gram、2-gram、3-gram 和 4-gram，权重是相等的。
长度惩罚：为了惩罚过短的翻译，BLEU 引入了一个基于翻译长度和参考翻译长度的惩罚因子。

最终的 BLEU 评分是介于 0 到 1 之间的数值，越接近 1 表示翻译质量越高。

应用场景

BLEU 评分被广泛用于机器翻译的自动评估，因为它能够快速且一致地衡量翻译质量，而不需要人工干预。它也被用于评估其他自然语言生成任务，如文本摘要和对话生成。

示例

假设有一个机器翻译输出和两个参考翻译：

机器翻译输出：the cat is on the mat
参考翻译 1：the cat is on the mat
参考翻译 2：there is a cat on the mat

N-gram 精度：
- 对于 1-gram（单词）：
  - 机器翻译中的每个单词都在至少一个参考翻译中出现，所以 1-gram 精度为 6/6 = 1。
- 对于 2-gram（两个连续的单词）：
  - 机器翻译中有 5 个 2-gram，其中 4 个在参考翻译中出现，所以 2-gram 精度为 4/5 = 0.8。
- 对于 3-gram 和 4-gram，由于参考翻译较短，我们可以假设精度较低。为了简化，我们可以假设 3-gram 和 4-gram 精度都为 0.5（实际中需要具体计算）。

注意: 在计算 N-gram 精度时，通常会考虑所有参考翻译。具体来说，对于每个 N-gram 在机器翻译中的出现，会在所有参考翻译中寻找最大的匹配次数，然后将这些最大匹配次数相加，并除以机器翻译中的 N-gram 总数。
举例来说，假设机器翻译的一个 2-gram 是 “the cat”，并且在参考翻译 1 中出现了 1 次，在参考翻译 2 中出现了 2 次，那么我们会取最大的匹配次数，即 2 次，作为这个 2-gram 的匹配次数。这样做是为了确保机器翻译的评分不会受到单一参考翻译的限制，而是能够更全面地反映其与多个参考翻译的匹配程度。

加权平均：
- 假设我们对 1-gram、2-gram、3-gram 和 4-gram 的权重都是相等的，即每个权重为 0.25。那么加权平均精度为：
  - (1 * 0.25) + (0.8 * 0.25) + (0.5 * 0.25) + (0.5 * 0.25) = 0.7
长度惩罚：
- 假设我们使用简单的长度惩罚公式，如果机器翻译长度小于参考翻译长度，惩罚因子为 0.9，否则为 1。在这个例子中，机器翻译长度等于参考翻译 1 的长度，所以惩罚因子为 1。
计算 BLEU 评分：
- BLEU 评分 = 加权平均精度 * 长度惩罚 = 0.7 * 1 = 0.7