最近看了看目前用得最广的机器翻译自动评测方法BLEU的原始论文,觉得这篇paper里面的工作做得很nice。让我很有感触。
随着统计机器翻译方法的兴起,一个有趣的问题摆在人们的面前:如何评价一个机器翻译方法的好坏?
最开始人们选用的是人工评测的方法,那就是一个翻译结果得到后,找一批专家来给每个句子翻译结果打分,然后统计均分。这里面就有问题了?首先,如果两个翻译结果给两批专家打分,如何保证我们打分的尺度一致。退一步讲就是一批专家给两个翻译结果打分,也无法保证打分尺度一致。人,毕竟不是机器嘛。其次,人工测评太耗费人力物力,并且无法再利用。现在机器翻译结果,让你等个十天八天再看结果,你修改一下你的系统,跑个新结果,又得等个十天八天的让专家打分,谁受得了?在这样的背景下,搞机器翻译的学者们迫切的希望有一种能够自动的客观的评价方法来代替人工评价。
自动评测方法有很多种,我就不一一列举了。这里讲的是IBM的watson研究中心在02年提出的BLEU方法。paper的摘要就简明说明BLEU方法是高效低代价,与语言无关,并且