用于图像描述的评价指标CIDEr讲解

最新推荐文章于 2025-01-17 08:15:00 发布

六六六六神

最新推荐文章于 2025-01-17 08:15:00 发布

阅读量8.9k

点赞数 6

分类专栏：机器学习文章标签：机器学习深度学习自然语言处理

本文链接：https://blog.csdn.net/weixin_41848012/article/details/124638438

版权

机器学习专栏收录该内容

18 篇文章

订阅专栏

参考文献：《CIDEr: Consensus-based Image Description Evaluation》

1. 主要思想

CIDEr是专门用于评价图像描述(image caption)任务的评价指标，当然用于其他相关文本生成类任务也是可以的。相较于常用于文本翻译的评价指标BLEU、ROUGE来说，CIDEr更接近人类去判断两个句子是否相近的原理，因为它利用了TF-IDF来对不同n-gram去赋予不同的权重，直观的来说，即经常出现的词组的权重具有更低的权重，而不常出现的词组则更特殊（具有更大的权重），人们会更注意这些特殊的单词。
例如：
I go to the garden this afternoon.
上述句子中，类似于go to这样的表达是比较常见的，而garden则不会经常出现，需要重点关注。

2. 计算公式

（1） TF-IDF

CIDEr的一个重要思想就是基于TF-IDF去给不同的n-gram赋予不同的权重，TF-IDF的计算公式如下：
$g_k(s_{ij})=\frac{h_k(s_{ij})}{\sum_{w_l\in\Omega}}\log(\frac{I}{\sum_{I_p\in{I}}\min(1,\sum_qh_k(s_{pq})) })$
其中，

$h_k(s_{ij})$ 表示词组 $w_{ij}$ 在参考句子 $s_{ij}$ 中出现的次数， $\Omega$ 表示所有n-gram的全部词汇， $I$ 代表数据集中所有图像的个数（即所有文件的个数）。
$\frac{h_k(s_{ij})}{\sum_{w_l\in\Omega}}$ 代表TF (term frequence)，如果一个n-gram在参考句子中出现的次数越多，则TF值越高；
$\log(\frac{I}{\sum_{I_p\in{I}}\min(1,\sum_qh_k(s_{pq}))})$ 代表IDF (inverse document frequency)，如果一个n-gram在所有文档中出现的次数越多，则IDF值越低。

（2）CIDEr

用于计算n-gram的CIDEr_n的计算公式如下：
$\text{CIDEr}_n(c_i,S_i)=\frac{1}{m}\sum_j\frac{g^n(c_i)\cdot g^n(s_{ij})}{\parallel g^n(c_i)\parallel \parallel g^n(s_{ij}\parallel }$
和BLEU、ROUGE一样，CIDEr也可以计算不同n-gram的聚合：
$\text{CIDEr}(c_i,S_i)=\sum_{n=1}^{N}w_n\text{CIDEr}_n(c_i,S_i)$ ，通常 $N = 4$ .

至此，CIDEr的计算公式就出来了。但是单看上述公式，CIDEr的最大值应该为1对吧，但是很多文献中都出现了CIDEr大于1的情况，这是为什么呢？
因为原作者还额外考虑到了有时候会出现不常见单词重复很多次会得到更高的分数的情况，引入了高斯惩罚，并限制预测结果中多次出现某个单词的次数，得到了CIDEr-D！

(3) CIDEr-D

$\text{CIDEr-D}_n(c_i,S_i)=\frac{10}{m}\sum_je^{\frac{-(l(c_i)-l(s_{ij}))^2}{2\delta^2}}\cdot \frac{\min(g^n(c_i),g^n(s_{ij}))\cdot g^n(s_{ij})}{\parallel g^n(c_i)\parallel \parallel g^n(s_{ij}\parallel }$
可以看到由于前面增加了一个10的倍数，所以理论上CIDEr-D的最大值应该是10，而不是1，这也是一些文献中CIDEr的值大于1的原因啦！