相似度系列—2传统方法BLEU:BLEU: a Method for Automatic Evaluation of Machine Translation

BLEU: a Method for Automatic Evaluation of Machine Translation

在相似度系列1中,刘老师的文章中,我感觉,维度似乎是一个很重要的指标,维度的设计应该是对实验结果产生影响,但是,作者的关注点似乎更注重怎么实现各个维度的统一evaluate?
他的难点:1是每个维度下数据的构建?2 每个维度下如何评测?

这篇文章是早期的BLEU评测,常用于机器翻译,本质是overlap,基于precision
为什么会有这篇文章:human evaluation is expensive.

这篇文章看的目的是这里边有很多假设,这些假设一般在后续的改进或者其他新的评测指标中,都是遵循的。
(1)机器翻译的维度:including adequacy, fidelity , and fluency of the translation

(2)怎么评测机器翻译的表现?measure translation performance。机器翻译越接近于人的翻译,说明翻译效果越好。
(3)evaluation metric需要什么?——和人类评估水平非常接近的矩阵;接近于人类翻译水平的语料。

这篇文章围绕BLEU的提出,展开了很清晰的介绍,包括,他的组成,怎么一步步提出来的?

基本前提——在衡量翻译质量时

1 n_grams:在候选答案和参考答案中,当有n_grams越接近时,说明翻译效果越好。

2 当翻译中使用相同的一元单词越多的情形下,说明candidate 和reference越满足 adequacy

3 当翻译中的candidate和reference中最长的n_gram越长的时候,说明越满足fluency。

4 当有越多的reference时,模型的relevance分值越高。

计算准确率(n_grams)

计算n_grams情形下的准确率,是将所有candidate中的n_gram和reference的n_gram对照,然后匹配上的n_gram数量/所有的n_gram数量

计算权重下的准确率

需要将所有的reference下的结果求和,然后作为整个翻译性能的计算。考虑每个reference下的权重。

recall不太容易计算,然后 就把recall以一种惩罚项的形式融入到了BLEU函数中。
惩罚项是根据句子的长度设立的,当candidate的句子长度小于reference时,设立惩罚,句子长度越小,惩罚越大。

在这里插入图片描述

在这里插入图片描述

总结

BLEU还是有一些不足的,虽然考虑了n_grams的匹配数量,但是在句法、单词顺序、同义词方面,考虑的不是很多。后面的改进,而且,他算是单一维度的评价指标吧。虽然在开头提到需要考虑四个维度:连贯性、完整性(一元gram相同的越多时)、流畅度(最长的n_gram越长的时候)…,但在计算中,这四个维度,体现的还不是太好。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YingJingh

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值