为了解决这个问题,首先需要知道BLEU值是如何计算出来的。
BLEU全称是Bilingual Evaulation Understudy。其意思是双语评估替补。所谓Understudy(替补),意思是代替人进行翻译结果的评估。
BLEU的思想基于Count based Model,尽管它并不完美,但它提供了一种非常有效的以单一数字指标评估机器翻译结果的方法。
下面以一个例子说明BLEU的计算。
假如正确的翻译参考(2)个是:
The cat is on the desk.
There is a cat on the desk.
那么很自然想到,用实际翻译结果中出现在参考翻译中的单词数除以实际翻译结果单词总数,是一种评估方法。例如,若翻译结果为The cat are on the desk
。则评分为:\(5/6\),只有are没有出现,这看起来是合理的。但是若翻译结果为is is is is is is is
,那么很显然,评分为\(6/6\),is在参考翻译句子中出现了。很明显,这就不对了。
一个解决方法是,规定实际翻译结果中每个单词的计数不得超过在单个参考翻译中出现的最大次数。即上述is is is is is is
结果,单词is在参考翻译中出现的最大次数是1,因此,评分为\(1/6\