直接评估(人工评判)。Amazon Mechnical Turk上的标注人员会看到一个系统生成的翻译和一个人工翻译,然后回答这样一个问题:“系统翻译有多么精确的表达了人工翻译的含义?”
Bleu score (Papineni et al 02 ).
大小写敏感 vs. 大小写不敏感
Brevity penalty 触发条件: 当机器翻译结果短于最短的参考译文 (reference) 或者短于最接近的参考译文 (reference)。
brevity penalty: 一个系数,用来惩罚长度短于参考翻译的机器翻译结果。
标准的Bleu计算流程会先对参考译文和机器翻译结果进行符号化 (tokenizition)。
如果中文是目标 (target) 语言, 则使用字符级别 {1,2,3,4}-gram匹配。
当只有1条人工参考翻译译文时使用Bleu-n4r1评估。
Bleu-n4r4: 词级别 {1,2,3,4}-gram 匹配, 与4条人工参考翻译译文比较
标准Bleu有很多重要的变种:
NIST. Bleu的一种变体,赋予少见的n-gram更高的权重。
TER (Translation Edit Rate). 计算机器翻译与人工参考译文之间的编辑距离 (Edit distance)。
BLEU-SBP ((Chiang et al 08)[http://aclweb.org/anthology/D08-1064] ). 解决了Bleu的解耦(decomposability) 问题,在Bleu和单词错误率取得一个折中。
HTER. 修改为一个良好的翻译所需要的人工编辑次数 (the number of edits)。