CIDEr 评价指标

最新推荐文章于 2024-04-02 15:04:09 发布

Miss_zhuo_

最新推荐文章于 2024-04-02 15:04:09 发布

阅读量8.6k

点赞数 5

分类专栏：论文笔记

原文链接：https://www.zhihu.com/question/304798594/answer/567383628

版权

论文笔记专栏收录该内容

11 篇文章 1 订阅

订阅专栏

CIDEr:

常用语图像字幕生成，CIDEr 是 BLEU 和向量空间模型的结合。它把每个句子看成文档，然后计算 TF-IDF 向量（只不过 term 是 n-gram 而不是单词）的余弦夹角，据此得到候选句子和参考句子的相似度，同样是不同长度的 n-gram 相似度取平均得到最终结果。优点是不同的 n-gram 随着 TF-IDF 的不同而有不同的权重，因为整个语料里更常见的 n-gram 包含了更小的信息量。

图像字幕生成评价的要点是看模型有没有抓取到关键信息，比如说一幅图的内容是『白天一个人在游泳池游泳』，其中最关键的信息应该是『游泳』，生成字幕时如果包含或者漏掉了一些别的信息（比如说『白天』）其实是无关紧要的，所以需要这么一种对非关键词降权的操作。

计算公式：

在这里插入图片描述

其中：1.TF：特定的word在文档中出现的次数，除以文档长度
2.IDF：log(语料库中总共的文档数，除以包含有特定的word的文档数)

BLEU:

所谓BLEU，最开始是用于机器翻译中。他的思想其实很native，对于一个给定的句子，有标准译文S1，还有一个神经网络翻译的句子S2。BLEU的思想就是对于出现机器翻译S2的所有短语，看有多少个短语出现在S1中，然后算一下这个比率就是BLEU的分数了。

BLEU 的大意是比较候选译文和参考译文里的 n-gram（实践中从 unigram 取到 4-gram）重合程度，重合程度越高就认为译文质量越高。选不同长度的 n-gram 是因为，unigram 的准确率可以用于衡量单词翻译的准确性，更高阶的 n-gram 的准确率可以用来衡量句子的流畅性。

首先根据n-gram划分一个短语包含单词的数量，有BLEU-1,BLEU-2,BLEU-3,BLEU-4。分别就是把文章划分成长度为1个单词的短语，长度为2个单词的短语，然后统计她们出现在标准译文中个数，在分别除以划分总数，就是对应的BLEU-1分数，BLEU-2分数，其实就是准确率,看这些划分中有多少是出现在标准译文当中的。

但是BLEU会有个缺陷，假如我就翻译一个单词，而这个单词正好在标准译文中，那岂不是准确率100%，对于这个缺陷，BLEU算法会有个长度惩罚因子，就是翻译太短了就会有惩罚，不过，总的来说，还是偏向于短翻译分数高一点。

Miss_zhuo_

关注

5
点赞
踩
12

收藏

觉得还不错? 一键收藏
9
评论
CIDEr 评价指标

CIDEr:常用语图像字幕生成，CIDEr 是 BLEU 和向量空间模型的结合。它把每个句子看成文档，然后计算 TF-IDF 向量（只不过 term 是 n-gram 而不是单词）的余弦夹角，据此得到候选句子和参考句子的相似度，同样是不同长度的 n-gram 相似度取平均得到最终结果。优点是不同的 n-gram 随着 TF-IDF 的不同而有不同的权重，因为整个语料里更常见的 n-gram 包含了更小的信息量。图像字幕生成评价的要点是看模型有没有抓取到关键信息，比如说一幅图的内容是『白天一个人在游泳
复制链接

扫一扫