Image Caption评估指标深入理解

前言:刚开始做图像描述的任务就整理了这些评估指标,时间久远有点记不清怎么具体实现原理了,结果面试的时候就问了这个问题,没答上来,郁闷了很久,还是基础不扎实,浅浅记录一下

BLEU

BLEU(Biligual Evaluation understudy):是一种用来评估机器翻译的评价指标,广泛出现在文本生成的论文当中,是一种基于单词精确度的度量方式。
BLEU采用一种 N-Gram 的匹配规则,具体来说就是比较 生成文本 和 真实文本 之间的 N组词 的相似度
举个栗子:
有如下两个句子:
其中,真实值是you are a good man,预测值是good man is you

  • 当使用1-Gram匹配时:
    在这里插入图片描述
    在不考虑语序的情况下,预测值4个词命中了真实文本的5个词,所以Score(1-gram)=4/5
  • 当使用3-Gram匹配时:
    在这里插入图片描述
    可以看到预测值中有1个三元词汇命中了真实文本中的3个三元词汇,于是Score(3-gram)=1/3

BLEU还有许多变种。根据n-gram可以划分成多种评价指标,常见的指标有BLEU-1、BLEU-2、BLEU-3、BLEU-4四种,其中n-gram指的是连续的单词个数为n。BLEU-1衡量的是单词级别的准确性,更高阶的bleu可以衡量句子的流畅性

BLEU的优点:

  • (1)速度快、成本低廉
  • (2)容易理解
  • (3)不受语种限制
  • (4)运用广泛
    BLEU的缺点

BLEU的缺点:

  • (1)忽略同义词
  • (2)N-gram的机制会导致某项分数特别低
  • (3)BLEU不考虑意义
  • (4)BLEU不考虑句子的结构,很多时候,只要单词相同BLEU就会给出很高的分数
  • (5)BLEU不能够很好地处理形态丰富的语言
  • (6)BLEU与人类的判断并不相符合

ROUGE

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)也是评估自动文摘以及机器翻译的一组指标。ROUGE基于摘要中n元词(n-gram)的共现信息来评价摘要,是一种面向n元词召回率的评价方法。

基本思想:将模型生成的文本与人工生成的真实文本相对比,通过统计二者之间重叠的基本单元(n元语法、词序列和词对)的数目,来评价生成文本的质量。

举个栗子:
机器生成的自动摘要:
the cat was found under the bed
人工生成的标准摘要:
the cat was under the bed
ROUGE-1的值可以很容易计算出来,生成的六个词六个词都是匹配的,所以score(ROUGE-1)=6/6,
这个值与召回率是一样的,也就是recall = 6/6,percision=6/7

ROUGE-2该如何计算?
自动摘要的Bigrams:
the cat, cat was, was found, found under, under the, the bed
标准摘要的Bigrams:
the cat, cat was, was under, under the, the bed
生成的十个词有八个(两个一组)是匹配的,故score(ROUGE-2)=4/5,也就是recall = 4/5。此时percision = 4/6

  • ROUGE-N优点:直观,简洁,能反映词序。
  • ROUGE-N缺点:区分度不高,且当N>3时,ROUGE-N值通常很小。

ROUGE准则由一系列的评价方法组成,包括ROUGE-N(N是n-gram中n,取值有1,2,3,4),ROUGE-L,ROUGE-S, ROUGE-W,ROUGE-SU等。在自动文摘相关研究中,一般根据自己的具体研究内容选择合适的ROUGE方法。

METEOR

METEOR是一种用于评估文本生成任务,最初是为机器翻译而开发的,现在广泛用于图像描述任务中。它基于单词级别准确率和召回率,以及对词序的惩罚,来计算候选文本和参考文本之间的相似度。

METEOR的特点是它不仅考虑了单词的精确匹配,还考虑了词干、同义词和其他语言变体的匹配。 它还使用了一个调和平均数来平衡准确率和召回率,以及一个罚分因子来惩罚不流畅或不连贯的文本。
计算公式:
在这里插入图片描述
在这里插入图片描述
其中P是准确率,R是召回率,Fmean是单元词组 对齐 后的准确率和召回率的调和平均,Pen是碎片度惩罚,计算如下:
在这里插入图片描述
m是生成文本中能够被匹配的一元词组的数量,ch是chunk 的数量,怎么理解这个chunk呢,看下面的例子:
在这里插入图片描述
预测值的一元词组数量 m = 5,,按照匹配度被分成了三个 chunk,即 ch = 3
如果超参数 γ = 1,β = 2,那 Pen = 1*(3/5)^2 = 0.36
召回率: P = 匹配的单词数 / 真实文本的单词数 = 4 / 5 = 0.8
精确率: R = 匹配的单词数 / 预测文本的单词数 = 4 / 5 = 0.8
假设超参数 α = 0.5,则 Fmean = 0.8 * 0.8 / ( 0.5 * 0.8+0.5 * 0.8 ) = 0.8
所以,最终的 METEOR =(1 - 0.36 )*0.8 = 0.512

CIDEr

CIDEr是专门用于评价图像描述(image caption)任务的评价指标。相较于常用于文本翻译的评价指标BLEU、ROUGE来说,CIDEr更接近人类去判断两个句子是否相近的原理,因为它利用了TF-IDF来对不同n-gram去赋予不同的权重,直观的来说,即经常出现的词组的权重具有更低的权重,而不常出现的词组则更特殊(具有更大的权重),人们会更注意这些特殊的单词。

CIDEr是利用TF-IDF来给不同长度的n-gram赋予不同的权重,然后计算候选句子和参考句子的n-gram的余弦相似度,再取平均得到最终的评分,计算公式如下:
在这里插入图片描述
其中, c_i是候选句子, s_i 是参考句子集合,m是参考句子的数量,n是n-gram的长度, g_n( c_i)和 g_n( s_i) 是候选句子和参考句子的TF-IDF向量

参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

疯狂的小强呀

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值