BLEU: a Method for Automatic Evaluation of Machine Translation论文解读

卷心菜不想卷

于 2024-09-02 16:11:50 发布

阅读量84

点赞数 3

文章标签：机器翻译人工智能自然语言处理

本文链接：https://blog.csdn.net/m0_52775136/article/details/141822321

版权

基本信息

作者	K Papineni	doi
发表时间	2002	期刊	ACL
网址	https://dl.acm.org/doi/pdf/10.3115/1073083.1073135

研究背景

1. What’s known 既往研究已证实
N-gram的匹配规则，算出比较译文和参考译文之间n组词的相似的一个占比。

2. What’s new 创新点
N-gram和惩罚因子。

3. What’s are the implications 意义
对机器翻译进行人工评价耗时，人工价格昂贵。自动机器翻译评估方法可以降低成本，并且评估速度提高。

研究方法

1. n-gram精度
在这里插入图片描述

即 $P_{1}$ 是5/6， $P_{2}$ 是3/5。
其中， $Count_{clip}$ 是预防遇到以下情况：

Max_Ref_Count是该单词在这句参考翻译中的出现次数。

2. BP对句子过短加以惩罚
避免输出有风险的单词，所以我们会把句子变短。但这样做并不是一个好的翻译。所以我们对过短的句子加以惩罚。
在这里插入图片描述
c是机器译文的词数，r是参考译文的词数
3. bleu最终计算公式

w是权重，如果采用了4-gram，则w_{n}=1/4。
一个高得分的候选翻译现在必须在长度、单词选择和单词顺序上与参考翻译相匹配。

结果与讨论

bleu翻译评估结构和人工翻译评估相差不大。

个人思考与启发

（某些词在翻译中很重要，某些词相对没那么重要）BLEU给的权重是相同的，因此存在一些问题:一个参考翻译少了重点单词，另一个参考翻译少了普通单词，但BLEU评分相同。
语言存在许多同义词，参考翻译无法完全涵盖所有同义词，使得正确翻译的bleu分数却很低。
机器翻译系统的常见评价指标：https://zhuanlan.zhihu.com/p/258207437

重要图

文献中重要的图记录下来
在这里插入图片描述

卷心菜不想卷

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
BLEU: a Method for Automatic Evaluation of Machine Translation论文解读

避免输出有风险的单词，所以我们会把句子变短。但这样做并不是一个好的翻译。所以我们对过短的句子加以惩罚。对机器翻译进行人工评价耗时，人工价格昂贵。自动机器翻译评估方法可以降低成本，并且评估速度提高。N-gram的匹配规则，算出比较译文和参考译文之间n组词的相似的一个占比。一个高得分的候选翻译现在必须在长度、单词选择和单词顺序上与参考翻译相匹配。Max_Ref_Count是该单词在这句参考翻译中的出现次数。w是权重，如果采用了4-gram，则w_{n}=1/4。c是机器译文的词数，r是参考译文的词数。
复制链接

扫一扫