简介
BLEU1(bilingual evaluation understudy)最早由IBM提出,用来评价翻译质量,该评价指标重点关注
相同文本下,机器与人翻译结果的近似程度
即机器译文与参考译文的相似程度。
算法
根据第一部分的介绍可知,BLEU可以评价机器译文与参考译文的相似度,但它是如何实现的呢?一种简单粗暴的方法是:统计同时出现在机器译文和参考译文中的词的个数,最后把匹配词的数目除以机器译文的单词数目,便是相似度。这种方法可以用如下公式表示:
P=mwt(1)
其中 m 表示能够在参考译文找到的机器译文词,
机器译文 | the | the | the | the | the | the | the |
---|---|---|---|---|---|---|---|
参考译文 | the | cat | is | on | the | mat | |
参考译文 | there | is | a | cat | on | the | mat |
根据公式 (1) 可知,此时相似度为
P=77=1
此时相似度无法反应真实的翻译效果。显然, m 的计算方式是导致相似度失真的重要因素。为此,引入一种新的计算方式: