【学习笔记】图像标注

概述

图像标注(Image Captioning)将一张图片翻译为一段描述性文字,需要机器用模型去理解图片的内容,还要用自然语言去表达这些内容并生成人类可读的句子。

评价指标

由于现实中对每一种图的标注结果进行人工评判的成本很高,所以研究者提出了一些自动评价图像标注效果的方法。

BLEU(Bilingual Evaluation Understudy)

BLEU主要用来评估机器翻译和专业人工翻译之间的相似度。后来该指标被引入到图像标注任务中,用来评估机器生成的文本同人工注释之间的相似度。相似度的度量是基于N-gram匹配间接计算出来的。BLEU评价算法中的三个重要部分是,(1)N-gram匹配精度的计算,(2)针对标注文本长度小于参考注释的惩罚机制,(3)为了平衡N-gram不同阶之间的精度差别而采用的几何平均。

优点:

  1. 评测的粒度是N个词而不是一个词,考虑了更长的匹配信息。

缺点:

  1. 没有考虑不同的词性在图像标注上所表达的信息重要性可能不同。
  2. 没有考虑同义词或相似表达的情况。

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)

ROUGE是为自动生成摘要而设计的一套评测指标。它是一种纯粹基于召回率的相似度度量方法,具体是通过比较重叠的N个词中单词序列和单词对来实现的,主要考察图像标注的充分性和真实性。

METEOR(Metric for Evaluation of Translation with Explicit ORdering)

METEOR是针对机器翻译任务而提出的一个评测指标。METEOR通过三个不同的匹配模块(精确匹配模块、“porter stem”模块、基于WordNet的同义词模块)来支持同义词、词根和词缀之间的匹配。其次,METEOR不仅考虑了匹配精度,还在评测中引入了召回率。

同BLEU相比,METEOR的评分与人工注释在语句层面上具有更好的相关性,而BLEU则在语料库这一级别上与人工注释具有更好的相关性。

METEOR也存在一些问题:

  1. METEOR使用了一些超参数,这些超参数是依据数据集调出来的,而非学习得到的。
  2. METEOR只考虑了匹配最佳的那一个参考标注,不能充分利用数据集中提供多个参考标注信息。
  3. METEOR使用了WordNet,对于WordNet中没有包含的语言就无法使用METEOR进行评测。

CIDEr(Consensus-based Image Description Evaluation)

CIDEr 是专门为图像标注问题而设计的,这个指标将每个句子都看作一个文档,将其表示成“词频-逆文档频率(TF-IDF)”向量的形式。计算完每个 N-gram 词汇的 TF-IDF 权重后,CIDEr 会计算参考标注与模型生成标注的余弦相似度,以此来衡量图像标注的一致性。最后将所有不同长度 N-gram 的 CIDEr 得分相加,就得到了最终的 CIDEr 评分。

TF-IDF 提供了一种度量 N-gram 显著性的方法,将那些常常出现、但是对于视觉内容信息没有多大帮助的 N-gram 的重要性打折。

SPICE(Semantic Propositional Image Caption Evaluation)

SPICE 是用于图像标注任务的评测指标。SPICE 首先利用一个依赖关系解析器将待评价 的图像标注和参考标注解析成语法关系依赖树,然后用基于规则的方法把语法关系依赖树映射成情景图,而情景图又可以被表示成一个个包含了物体、属性和关系的元组,最后对两个情景图中的每一个元组进行匹配,把计算到的 F-Score 作为SPICE 得分。

同其他四种评测指标相比,SPICE 排除了由 N-gram 造成的重叠敏感问题的同时,更加直观和具有可解释性,但 SPICE 的评测中忽视了标注语句的流畅性。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值