机器翻译（一）：BLEU（bilingual evaluation understudy）

最新推荐文章于 2024-04-28 16:56:25 发布

cptu

最新推荐文章于 2024-04-28 16:56:25 发布

阅读量4.1k

点赞数 2

分类专栏： nlp 文章标签：算法 nlp 机器学习深度学习

本文链接：https://blog.csdn.net/AckClinkz/article/details/78279074

版权

BLEU指标由IBM提出，用于评估机器翻译的质量，关注机器译文与参考译文的相似度。通过计算n-gram匹配度并结合brevity penalty（BP）调整短译文的得分，以更准确地反映翻译效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

简介

BLEU1（bilingual evaluation understudy）最早由IBM提出，用来评价翻译质量，该评价指标重点关注

相同文本下，机器与人翻译结果的近似程度

即机器译文与参考译文的相似程度。

算法

根据第一部分的介绍可知，BLEU可以评价机器译文与参考译文的相似度，但它是如何实现的呢？一种简单粗暴的方法是：统计同时出现在机器译文和参考译文中的词的个数，最后把匹配词的数目除以机器译文的单词数目，便是相似度。这种方法可以用如下公式表示：

P = m w t (1)

$P=\frac{m}{w_{t}} \tag{1}$

其中 $m$ 表示能够在参考译文找到的机器译文词， $w_{t}$ 表示机器译文词的总数。为了便于理解，这里简单举一个例子

机器译文	the	the	the	the	the	the	the
参考译文	the	cat	is	on	the	mat
参考译文	there	is	a	cat	on	the	mat

根据公式 $(1)$ 可知，此时相似度为

P = 7 7 = 1

$P=\frac{7}{7}=1$

此时相似度无法反应真实的翻译效果。显然， $m$ 的计算方式是导致相似度失真的重要因素。为此，引入一种新的计算方式：

C o u n t c l i p (w o r d) = min

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

cptu

关注关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

BLEU-4、ROUGE-1是什么

ZJQ的博客

03-13

175

BLEU-4、ROUGE-1、ROUGE-2和ROUGE-L是用于评估模型性能的重要指标。

LLM - 计算大模型评估指标 BLEU 的工具 (NLTK/Evaluate) 教程

最新发布

AGI

01-02

1175

BLEU(Bilingual Evaluation Understudy)，即双语评估替补，通过比较，机器翻译的句子和参考翻译句子之间的 n-gram (n元语法) 重叠情况来衡量翻译质量，也可用于评估大语言模型的输出质量。

参与评论您还未登录，请先登录后发表或查看评论

NLP评估指标：双语替换评测（BLEU）

rosefun96的博客

01-22

4707

1. BLEU定义双语替换评测（英语：bilingual evaluation understudy，缩写：BLEU）是用于评估自然语言的字句用机器翻译出来的品质的一种算法。通过将各个译文片段（通常是句子）与一组翻译品质好的参考译文进行比较，计算出各个片段的分数。接着这些分数平均于整个语料库，估算翻译的整体品质。此算法不考虑字句的可理解性或语法的正确性。双语替换评测的输出分数始终为0到1之间的数字。该输出值意味着候选译文与参考译文之间的相似程度，越接近1的值表示文本相似度越高。 2. 示例双语替

BLEU score (bilingual evaluation understudy) 双语评价替补

DecafTea的博客

12-16

1156

BLEU是一种机器翻译（machine translation) 评价指标。公式解释： Pn: modified precision score for n-gram。n = 1时是“匹配”单词，n>1时是“匹配”短语。值域[0, 1]。 wnlogPn: weighted log（modified precision score）。 why log？我们发现precision随n的增加呈指数递减，n越小precision越高。为了同等对待不同n的precision score，我们用logP

Image captioning评价方法之BLEU (bilingual evaluation understudy)

Michael’s Blog

10-24

3305

文章地址：BLEU: a Method for Automatic Evaluation of Machine Translation 代码地址(非官方)：https://github.com/tylin/coco-caption 该评价方法是IBM发表于ACL2002上。从文章命名可以看出，文章提出的是一种双语评价替补，"双语评价(bilingual evaluation)"说明文章初衷提出该评价指标是用于机器翻译好坏的评价指标，"替补(understudy)"说明文章想提出一种有效的评价指标进而帮助人类

机器翻译质量评测算法-BLEU

热门推荐

巫山老妖

03-25

1万+

机器翻译质量评测算法-BLEU 机器翻译质量评测算法-BLEU 什么是BLEU？为什么要用BLEU？ BLEU的原理是什么？怎么使用BLEU？ BLEU的优缺点？最后参考文章本文介绍机器翻译领域针对质量自动评测的方法-BLEU，让你理解为什么BLEU能够作为翻译质量评估的一种指标，它的原理是什么，怎么使用的，它能解决什么问题，它不能解决什么问题。什么是BL...

BLEU:Bilingual evaluation understudy

weixin_30530523的博客

08-08

200

BLEU:Bilingual evaluation understudy NMT/BLEU N-gram 比较机翻和答案之间n组词的相似的一个占比原文：今天天气不错机翻：It is a nice day today 答案：Today is a nice day 1-gram: 机翻一共6个词 5个都命中 1-gram precision 5/6 3-gram: 机翻一共可以分为四...

NLP评估指标----BLEU--bilingual evaluation understudy

qq_36217665的博客

12-31

2864

1. 介绍计算两个句子相似度，使用的方式是共现词频率，用来衡量两句话的一致程度。主要用于评估翻译的好坏思想：认为机器翻译结果越接近专业人工翻译，模型越准确 blue越高，认为模型越好 bleu的优点：方便、快速、结果有参考价值 bleu的缺点：不考虑语法上的准确性；测评精度会受常用词的干扰；短译句的测评精度有时会较高；没有考虑同义词或相似表达的情况。 2. 应用 bleu考虑1，2，3，4...

纯干货，英专生论文中关于机器翻译质量的BLEU测评法，ChatGPT轻松实现，技巧揭密

ChatGPT写论文，助力大学生轻松脱离论文苦海

04-28

2220

咱们指导的做法简单粗暴，不用微信文字这种低效沟通方式，而是随时随地直接拉个腾讯会议，手把手，直接带你实操ChatGPT辅助论文写作的奇技淫巧，后续陪伴你直到论文顺利完成答辩。1.n-gram计算：对自动翻译结果和参考翻译进行n-gram（通常是1-gram到4-gram）的计算，得到两者之间的n-gram重叠数量。2.精确匹配：对于每个n-gram，计算在自动翻译结果中出现的次数和在参考翻译中出现的次数的较小值，然后将这些较小值相加得到总的精确匹配数。

【机器翻译】BLEU学习

凉水的博客

09-21

1393

BLEU学习简介 BLEU(bilingual evaluation understudy),是一种翻译结果的评估方法，主要概念来自于这篇Bleu: a method for automatic evaluation of matchin translatrion论文,本文主要学习和总结该论文及相关材料。 1. 评估标准 BLEU的思想基于一个前提：机器翻译的结果越接近专业人士的翻译，结果越好。...

机器翻译评测----BLEU算法

weixin_45337615的博客

09-10

1682

BLEU算法前言N-gram召回率短句惩罚因子BLEU实例前言 BLEU(bilingual evaluation understudy)算法是由IBM提出的用来自动评测机器翻译质量的算法。 N-gram N-gram的N指连续的N个word用来匹配，即比较译文和参考译文之间N组词的相似占比。例如：原文：今天天气不错机器译文：It is a nice day today 人工译文：Today is a nice day 如果用1-gram匹配的话：每1个word用来匹配，最终5个wo

[文献阅读] Bleu: a Method for Automatic Evaluation of Machine Translation

庖丁解牛

04-16

2813

Bleu: a Method for Automatic Evaluation of Machine Translation Author: Kishore Papineni, Salim Roukos, Todd Ward, Wei-Jing Zhu IBM Research Division Thomas J. Watson Research Center P.O. Box 218 Yor

【论文笔记】BLEU: a Method for Automatic Evaluation of Machine Translation

m0_48948682的博客

02-23

1971

BLEU 是一种自动机器翻译评估方法。该方法快速、廉价且与语言无关，与人工评估高度相关，并且每次运行的边际成本很小。

BLEU: a Method for Automatic Evaluation of Machine Translation

weixin_40904578的博客

12-07

406

bleu 是用来衡量机器翻译结果好坏的指标最初的版本：使用累加器计算candidate中词在reference中出现词的次数，除以总次数称为precision 但可能会出现以下情况：此时显然这个计算方法是存在bug的改良版：可以解决大部分问题但是所以加入短句惩罚此处定义一个概念, 当candidate ...

相似度系列—2传统方法BLEU：BLEU: a Method for Automatic Evaluation of Machine Translation

Hekena的博客

11-14

452

BLEU还是有一些不足的，虽然考虑了n_grams的匹配数量，但是在句法、单词顺序、同义词方面，考虑的不是很多。后面的改进，而且，他算是单一维度的评价指标吧。虽然在开头提到需要考虑四个维度：连贯性、完整性（一元gram相同的越多时）、流畅度（最长的n_gram越长的时候）…，但在计算中，这四个维度，体现的还不是太好。

机器翻译自动评价之BLEU详解-BLEU: a Method for Automatic Evaluation of Machine Translation

ac540101928的专栏

11-21

1414

摘要翻译对机器翻译进行人工评价是广泛的，但价格昂贵。人工评价可能要数月才能完成，并且要用不能够被重复使用的人工劳动。在此提出了一种快速、便宜且语言独立的自动机器翻译评价方法，它和人工评价高度相关，并且每次运行的边际成本很低。当需要快速或频繁的评估时，我们把这种方法作为有相关技术的人工评价的自动化替代。一、本文针对什么问题开展研究，研究的意义如何；人工评价机器翻译质量要衡量翻译的许多方面，包括充分性、通顺性和精确性。对机器翻译进行人工评价存在许多问题，如：①耗时长，可能需要数周甚至数月时间才能

NMT十篇必读论文（十）BLEU：a Method for Automatic Evaluation of Machine Translation

啊噗啊噗

12-20

2136

原文链接：https://www.jianshu.com/p/15c22fadcba5 BLEU (Bilingual Evaluation Understudy) is an algorithm for evaluating the quality of text which has been machine-translated from one natural language to an...

[ THUNLP-MT (2/10) ] BLEU: a Method for Automatic Evaluation of Machine Translation | NIST

世界上有很多的东西

05-16

430

本文讨论BLEU和NIST评价指标的主要原理。原论文由IBM发表于ACL'02，是老生常谈的一篇论文了。BLEU指标如今经常在机器翻译任务的评价中使用。 (被引用 8924 次。)此外，本文还讨论BLEU的变种，NIST评价指标。