CIDEr: Consensus-based Image Description Evaluation
时间:2015
Intro
- 自动度量 description of an image 的困难
- 提出了consensus-based 的度量协议:CIDEr
Approach
给定一副图片和一系列人给出的描述,我们的目标是估计candidate和大多数ground truth的相似性
直观来说,为了度量consensus,需要找到candidate中的n-gram在reference中出现的频率,同时,不在reference中的n-gram不应该出现在candidate中,且频繁出现在数据集中的n-gram权值应该更低,因为它们代表性更差(less informative),因此,我们通过TF-IDF来加权n-gram,n-gram
w
k
w_k
wk出现在reference
s
i
j
s_{ij}
sij中的次数记作
h
k
(
s
i
j
)
h_k(s_{ij})
hk(sij)或
h
k
(
c
i
)
h_k(c_i)
hk(ci),其中
c
i
c_i
ci是candidate,计算公式如下
其中
Ω
\Omega
Ω是所有n-gram的集合,
∣
I
∣
|I|
∣I∣是图片集合,第一项是TF第二项是IDF
长度为n的n-gram的
C
I
D
E
r
n
CIDEr_n
CIDErn计算为candidate和reference的平均余弦相似度,这同时计算了precision和recall
其中
g
n
\mathbf{g^n}
gn是
g
k
g_k
gk组成的向量,综合所有长度的n-gram,计算
最终,我们发现
w
n
=
1
/
N
w_n=1/N
wn=1/N最好,我们取
N
=
4
N=4
N=4
CIDEr-D
为了抵抗一些’gaming’样本,在原始的CIDEr上要做一些改进:
- 去掉stemming,stemming就是将词根相同的词变成一个词
- 因为CIDEr会给一些包含重复高置信度的词的句子打高分,所以加入高斯惩罚,它基于candidate和reference的句长差异
- 最后,第二个改动可能会被重复产生高置信度的词到句长这一方法破除,所以,我们利用clipping来解决这个问题,将candidate中n-gram出现次数超过reference中最高次数的clip掉,最后的结果是
l代表句子的长度,我们取 σ = 6 \sigma=6 σ=6,最后的综合计算公式和之前的CIDEr一样
Idea
- 度量相似度相比度量candidate对reference的recall和precision是更加客观的,因为它是对称的度量
- BLEU 是基于precision的度量,ROUGH是基于recall的度量
- BLEU的key idea是compute precision by clipping
总结
本文提出了一个consensus-based自动度量准则,这个准则能够客观比较candidate和reference的差异,无需特别依赖内容加权、语法和显著性特征。