Image Caption 常用评价指标

BLEU、Meteor、ROUGE、CIDEr 和 SPICE。前两个是评测机器翻译的,第三个是评测自动摘要的,最后两个评价 caption 的。

1. Perplexity​​​​​​

Perplexity

其中,L是句子的长度,PPL(w_{1:L}|I)就是根据图像 I 给出的描述句子 w_{1:L}的 perplexity。而P(w_n|w_{1:n-1},I) 是根据图像 I 和前面的单词序列w_{1:n-1}生成下一个单词w_n的概率。
一句话:Perplexity 得分越低越好。

2. BLEU

Bilingual Evaluation Understudy,双语互评辅助工具。 用于分析候选译文(待评价的译文)和参考译文中 N 元组共同出现的程度,IBM 于2002年提出的。
BLEU的优点是它考虑的粒度是 n-gram 而不是词,考虑了更长的匹配信息;BLEU的缺点是不管什么样的 n-gram 被匹配上了,都会被同等对待。比如说动词匹配上的重要性从直觉上讲应该是大于冠词的。BLEU是做不到百分百的准确的,它只能做到个大概判断,它的目标也只是给出一个快且不差自动评估解决方案。
优点很明显:方便、快速、结果有参考价值 。
缺点也不少,主要有:

  • 不考虑语言表达(语法)上的准确性;
  • 测评精度会受常用词的干扰;
  • 短译句的测评精度有时会较高(长度惩罚);
  • 没有考虑同义词或相似表达的情况,可能会导致合理翻译被否定;
各阶N-gram的精度

h_k(c_i)表示w_k翻译成译文c_i中出现的次数,
h_k(s_{ij}) 表示w_k在标准答案s_{ij}中出现的次数,
max_{j \in m}h_k(s_{ij})表示某n-gram在多条标准答案中出现最多的次数,
\sum_i \sum_j min(h_k(c_i),max_{j \in m} h_k(s_{ij}))表示取n-gram在翻译译文和标准答案中出现的最小次数。
由于各N-gram统计量的精度随着阶数的升高而呈指数形式递减,所以为了平衡各阶统计量的作用,对其采用几何平均形式求平均值然后加权,再乘以长度惩罚因子,得到最后的评价公式:

Bleu

 

惩罚因子

参考文献:Papineni, K., Roukos, S., Ward, T., & Zhu, W. J. (2002, July). BLEU: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting on association for computational linguistics (pp. 311-318). Association for Computational Linguistics.
一句话:基于准确率,BLEU 得分越高越好。

3. METEOR

METEOR 是基于BLEU进行了一些改进,其目的是解决一些 BLEU 标准中固有的缺陷 。使用 WordNet 计算特定的序列匹配,同义词,词根和词缀,释义之间的匹配关系,改善了BLEU的效果,使其跟人工判别共更强的相关性。
METEOR 也包括其他指标没有发现一些其他功能,如同义词匹配等 。

Meteor

参考文献:Banerjee, S., & Lavie, A. (2005). METEOR: An automatic metric for MT evaluation with improved correlation with human judgments. In Proceedings of the acl workshop on intrinsic and extrinsic evaluation measures for machine translation and/or summarization (pp. 65-72).
一句话:基于准确率和召回率,METEOR 得分越高越好。

4. ROUGE

ROUGE 是出于召回率来计算,所以是自动摘要任务的评价标准。其中有3个评价标准,分别是 ROUGE-N,ROUGE-L 和 ROUGE-S.

ROUGE

 

参考文献:Lin, C. Y. (2004). Rouge: A package for automatic evaluation of summaries. Text Summarization Branches Out.
一句话:ROUGE 得分越高越好。

5. CIDEr

CIDEr 是专门设计出来用于图像标注问题的。这个指标将每个句子都看作“文档”,将其表示成 Term Frequency Inverse Document Frequency(tf-idf)向量的形式,通过对每个n元组进行(TF-IDF) 权重计算,计算参考 caption 与模型生成的 caption 的余弦相似度,来衡量图像标注的一致性的。
从直观上来说,如果一些n元组频繁地出现在描述图像的参考标注中,TF对于这些n元组将给出更高的权重,而IDF则降低那些在所有描述语句中都常常出现的n元组的权重。也就是说,IDF提供了一种测量单词显著性的方法,这就是将那些容易常常出现,但是对于视觉内容信息没有多大帮助的单词的重要性打折。

考虑一张图片是l_i \in l (I: 全部测试集图片的集合),对于一个n-gram, w_k和参考caption s_{ij},tf-idf计算方式是

tf-idf

式中的 Ω是全部 n-gram 构成的词表。可以看出 idf 的分母部分代表的是w_k出现于参考caption的图片个数。
那么,CIDEr的值可以用余弦相似度的平均值来计算:

CIDEr

类似于BLEU的做法:

CIDEr

这个指标的motivation之一是刚才提到的BLEU的一个缺点,就是对所有匹配上的词都同等对待,而实际上有些词应该更加重要。
CIDEr-D 是修改版本,为的是让 CIDEr 对于 gaming 问题更加鲁棒。

什么是 Gaming 问题?它是一种现象,就是一个句子经过人工判断得分很低,但是在自动计算标准中却得分很高的情况。为了避免这种情况,CIDEr-D 增加了截断(clipping)和基于长度的高斯惩罚。

参考文献:Vedantam, R., Lawrence Zitnick, C., & Parikh, D. (2015). Cider: Consensus-based image description evaluation. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 4566-4575).
一句话:CIDEr 得分越高越好。

6. SPICE

SPICE 也是专门设计出来用于 image caption 问题的。全称是 Semantic Propositional Image Caption Evaluation。前面四个方法都是基于 n-gram 计算的,所以 SPICE 设计出来解决这个问题。
SPICE 使用基于图的语义表示来编码 caption 中的 objects, attributes 和 relationships。它先将待评价 caption 和参考 captions 用 Probabilistic Context-Free Grammar (PCFG) dependency parser parse 成 syntactic dependencies trees,然后用基于规则的方法把 dependency tree 映射成 scene graphs。最后计算待评价的 caption 中 objects, attributes 和 relationships 的 F-score 值。
参考文献:Anderson, P., Fernando, B., Johnson, M., & Gould, S. (2016, October). Spice: Semantic propositional image caption evaluation. In European Conference on Computer Vision (pp. 382-398). Springer, Cham.
一句话:SPICE 得分越高越好。

参考 captions 它的 scene graph
待评价 caption 和它的 dependency tree及scene graph
计算 F-score 的 objects, attributes and relationships

 

  • 2
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值