Reference based LSTM for Image Captioning
这篇文章,在训练阶段和预测阶段都加入了references:在训练阶段通过references来判断训练captions中出现的每个单词的重要性;在预测阶段则在选择生成的caption时,使用似然概率和consensus score的加权平均来权衡生成句子的好坏,这样可以使选出的句子更具准确性。
1.训练阶段的reference
首先这里要引入的概念,这是一个比较有趣的参数它的图示如下公式8所示。其中I表示的是卷积特征,而代表的是训练集中任意两两图片间的平均距离。两个图的,相似度越高,则这个值也就越大。
由下图,我们发现,通过bicycle索引出的图片(就是caption中同样拥有bicycle的图片),与目标图片比较高的相似度,也就是更大;而a索引出的图片则相似度更小。因此,可以用直接来代表这个单词在这个caption中的重要性。(这个概念其实就是很好的拟合,想想,确定一个词bicycle的情况下,找到了和它相似度较高的图片,不就说明的概率大吗)
接下来,便可以很好的引入这篇文章想要的重要性机制了。对于训练图片I对应的captions中的每一个词的重要性记为,如公式4所示。这个定义类似于TF-IDF:分子表示词语在这个图片中出现的概率,越大越好,但是有一类词在每个图片中出现的概率都很大,这种词对于图片的标示性很低,即使概率大也不应该赋予比较高的重要性;因此来一个修正,分母代表的是这个词语在整个训练语料库中出现的概率,越常见的词这个概率越大,与重要性成反比。
接下来,又是贝叶斯概率公式,上,比较简单,5到6的过度,是因为给定了训练集以后,P(I)也就确定了,作为一个常数可以直接囊括到里去。
因此,上文说过,可以很好的拟合概率,带进来,便有
便得到每个词的重要性,对于更为重要的词,希望可以在训练过程中施加更为重要的影响,在最后训练的目标函数中引入了这个参数。
2.预测阶段的reference
对于预测阶段,目标图片是J,生成的描述句子用R表示。这里通常的做法是使用对数似然概率来表示,这篇文章引入consensus score,并对两个指标进行了归一化。
最后的评价标准如下:
作者认为,consensus score的引入可以修正误判,并且使句子更加自然。
参考文献:
Reference Based LSTM for Image Captioning. Minghai Chen, Guiguang Ding, Sicheng Zhao, Hui Chen, Qiang Liu, Jungong Han.