提出论文:[1] An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments
改进论文:[2] Meteor: An Automatic Metric for MT Evaluation with High Levels of Correlation with Human Judgments
参考资料:维基百科
本文以论文2中公式为主
METEOR (Metric for Evaluation of Translation with Explicit ORdering)
- METEOR基于BLEU进行了一些改进,其目的是解决一些 BLEU 标准中固有的缺陷 。
- METEOR使用 WordNet 计算特定的序列匹配,同义词,词根和词缀,释义之间的匹配关系,改善了BLEU的效果,使其跟人工判别具有更强的相关性。
- METEOR基于F1值,其中召回率的权值高于准确率。
用通俗的话解释,METEOR在评估两个句子的相似程度时,考虑了单词的词形,同时用 WordNet 等知识源扩充了同义词集,将评估标准放宽了,比如“friend”翻译为“friends”,“buddy”不算翻译错误。
1. 对齐
算法首先在候选翻译字符串和参考翻译字符串这两个句子之间创建对齐(alignment)。
对齐是unigram之间的一组映射。
映射可以被认为是一个字符串中的一个unigram和另一个字符串中的一个unigram之间的一条线,如下图所示。
候选译文中的每个unigram至多映射到引用中的一个unigram,也可以不映射。
选择映射以生成上面定义的对齐。
- 选择连线数最多的映射(the largest subset of these word mappings)
- 如果两组映射的连线数相同,则选择交叉最少的那组。
按照如上规则,我们会选择下方图片对应的映射。
对齐过程是由三个单词映射模块逐步产生的。
- “exact” module: maps two words if they are exactly the same.
- “porter stem” module: maps two words if they are the same after they are stemmed using the Porter stemmer.
- “WN synonymy” module: maps two words if they are considered synonyms,based on the fact that they both belong to the same“synset” in WordNet.
下图为一个例子,示意三个模块是如何工作的。
分别是精确匹配,词干化匹配与同义词匹配。
各阶段是连续运行的,默认顺序是首先应用“exact”