NLP基础知识点：METEOR

最新推荐文章于 2025-01-17 08:15:00 发布

梆子井欢喜坨

最新推荐文章于 2025-01-17 08:15:00 发布

阅读量4.1k

点赞数 6

分类专栏： # NLP任务中常用的指标文章标签：自然语言处理数据挖掘深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39610915/article/details/117090205

版权

提出论文：[1] An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments
改进论文：[2] Meteor: An Automatic Metric for MT Evaluation with High Levels of Correlation with Human Judgments
参考资料：维基百科
本文以论文2中公式为主

METEOR (Metric for Evaluation of Translation with Explicit ORdering)

METEOR基于BLEU进行了一些改进，其目的是解决一些 BLEU 标准中固有的缺陷。
METEOR使用 WordNet 计算特定的序列匹配，同义词，词根和词缀，释义之间的匹配关系，改善了BLEU的效果，使其跟人工判别具有更强的相关性。
METEOR基于F1值，其中召回率的权值高于准确率。

用通俗的话解释，METEOR在评估两个句子的相似程度时，考虑了单词的词形，同时用 WordNet 等知识源扩充了同义词集，将评估标准放宽了，比如“friend”翻译为“friends”,“buddy”不算翻译错误。

1. 对齐

算法首先在候选翻译字符串和参考翻译字符串这两个句子之间创建对齐(alignment)。
对齐是unigram之间的一组映射。
映射可以被认为是一个字符串中的一个unigram和另一个字符串中的一个unigram之间的一条线，如下图所示。

候选译文中的每个unigram至多映射到引用中的一个unigram，也可以不映射。
选择映射以生成上面定义的对齐。

选择连线数最多的映射(the largest subset of these word mappings)
如果两组映射的连线数相同，则选择交叉最少的那组。

按照如上规则，我们会选择下方图片对应的映射。

对齐过程是由三个单词映射模块逐步产生的。

“exact” module: maps two words if they are exactly the same.
“porter stem” module: maps two words if they are the same after they are stemmed using the Porter stemmer.
“WN synonymy” module: maps two words if they are considered synonyms,based on the fact that they both belong to the same“synset” in WordNet.

下图为一个例子，示意三个模块是如何工作的。
分别是精确匹配，词干化匹配与同义词匹配。
在这里插入图片描述
各阶段是连续运行的，默认顺序是首先应用“exact”

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。