caption和translation重要评价指标:(BLEU,METEOR,ROUGE,CIDEr)

BLEU:

最开始是用于机器翻译中,思想很是naive,对于一个给定的句子,有标准S1,还有一个神经网络翻译的句子S2。BLEU的思想就是对于机器翻译S2的所有短语,看有多少出现在S1中,BLEU就是其比率。首先根据n-gram划分一个短语包含单词的数量,有BLEU-1,BLEU-2,BLEU-3,BLEU-4.分别就是把文章划分为长度为1个单词的短语,长度为2个的短语。。。然后统计它们出现在标准译文中的个数,再分贝除以划分总数,就是对应的BLEU-1分数,BLEU-2分数。。。其实就是准确率。看这些划分中有多少是出现在标准译文中的。一般而言:unigram的准确率可以用于衡量单词翻译的准确性,更高阶的n-gram的准确率可以用来衡量句子的流畅性。但是!BLEU有个缺陷,假如翻译一个单词,而这个单词正好在标准译文中,那准确率就是100%??,对于这个缺陷,BLEU算法会有个长度惩罚因子,就是翻译太短了就会有惩罚,不过,总的来说,还是偏向于短翻译分数高一点。BLEU常用于短翻译。

METEOR:

大意是说有时候翻译模型翻译的结果是对的,只是碰巧跟参考译文没对上(比如用了一个同义词),于是用WordNet等知识源扩充了一下同义词集,同时考虑了单词的词性(词干相同的词也认为是部分匹配的,也应该给予一定的奖励,比如说把likes翻译成了like,在一定程度上是大大可接受的)。在评价句子流畅性的时候,用了chunk的概念(候选译文和参考译文能够对齐的、空间排列上连续的单词形成一个chunk,这个对齐算法是一个有点复杂的启发式beam search),chunk的数目越少意味着每个chunk的平均长度越长,也就是说候选译文和参考译文的语序越一致。最后还有召回率和准确率两者都要考虑。

ROUGH:

算法基本思路和BLEU差不多,不过它统计的是召回率,也就是对于标准译文中的短语,统计一下它们有多少个出现在机器翻译的译文当中,其实就是看机器翻译有多少个翻译对了,这个评价指标主要在于标准译文中的短语都出现过,那么自然机器翻译的译文越长结果越好。

CIDEr:

常用于图像字幕生成,CIDEr是BLEU和向量空间模型的结合。它把每个句子看成文档没然后计算TF-IDF向量(只不过term是n-gram而不是单词)的余弦夹角,据此得到候选句子和参考句子的相似度,同样是不同长度的n-gram相似度取平均得到最终结果。有点事不同的n-gram随着TF-IDF的不同而有不同的权重,因为整个语料里更常见的n-gram包含了更小的信息量。图像字幕生成评价的要点是看模型有没有抓取到关键信息,比如说一幅图的内容是【白天一个人在游泳池游泳】,其中最关键的信息应该是【游泳】,生成字幕时如果包含或者漏掉了一些别的信息(比如说白天),其实时无关紧要的,所以需要这么一种对非关键词降权的操作。
参考

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值