机器翻译的评价标准BLEU(Evaluation criteria for machine translation)

1.概念

BLEU(bilingual evaluation understudy)在这篇论文中被提出BLEU: a Method for Automatic Evaluation of Machine Translation
BLEU是一种衡量机器翻译质量的评价标准。一种基于精确度的相似性度量方法,先看一下面的句子:

2.例子:n-gram在机器翻译译文和标准答案中出现次数不一致

机器翻译的句子:The the the the the the the.
标准的答案1:The cat is on the mat
标准的答案2:There is a cat on the mat
按照accuracy的计算方法:
P= mw=77=1
其中m:机器翻译的句子中的单词在标准答案中的个数;w:机器翻译句子中单词的个数。机器翻译的每一个词语都在标准的答案中,accuracy=1,但是很明显这没有任何意义。
这里要解决的问题在于:机器翻译出的句子中同一个单词的出现个数>标准答案中同一个单词出现的个数,怎么办?

Note:如果机器翻译出的句子某个单词个数>答案中的,取答案中出现的次数
如果机器翻译出的句子中某个单词个数<答案中的,取翻译出该单词的个数

3.例子:机器翻译译文长度太短

机器翻译的句子:The cat
标准的答案1:The cat is on the mat
标准的答案2:There is a cat on the mat
计算一下accuracy:

P=22=1

the和cat都在答案中出现,而且翻译的句子长度为2,因此accuracy为100%,又是100%的准确率…,但是这个翻译也是很差啊,那么这个又是什么问题呢?
刚刚只考虑到了准确率,召回率呢?
1-gram(unigram)召回率:R= 27
2-gram召回率: R=36
综合召回率和准确率就不行了,一般来说,参考答案10个词语,翻译出来的结果也应该接近10个左右,
BLEU基于此进行修改…

4.BLEU公式

n-gram:句子中连续的n个单词,长度为18的句子有18个1-gram(unigram),17个2-gram
将机器翻译的句子表示为 ci ,标准答案表示为

Si=si1,...
  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值