论文笔记:Reference based LSTM for Image Captioning

Reference based LSTM for Image Captioning

       这篇文章,在训练阶段和预测阶段都加入了references:在训练阶段通过references来判断训练captions中出现的每个单词的重要性;在预测阶段则在选择生成的caption时,使用似然概率和consensus score的加权平均来权衡生成句子的好坏,这样可以使选出的句子更具准确性。

1.训练阶段的reference

首先这里要引入的概念,这是一个比较有趣的参数它的图示如下公式8所示。其中I表示的是卷积特征,而代表的是训练集中任意两两图片间的平均距离。两个图的,相似度越高,则这个值也就越大。

 

由下图,我们发现,通过bicycle索引出的图片(就是caption中同样拥有bicycle的图片),与目标图片比较高的相似度,也就是更大;而a索引出的图片则相似度更小。因此,可以用直接来代表这个单词在这个caption中的重要性。(这个概念其实就是很好的拟合,想想,确定一个词bicycle的情况下,找到了和它相似度较高的图片,不就说明的概率大吗)

接下来,便可以很好的引入这篇文章想要的重要性机制了。对于训练图片I对应的captions中的每一个词的重要性记为,如公式4所示。这个定义类似于TF-IDF:分子表示词语在这个图片中出现的概率,越大越好,但是有一类词在每个图片中出现的概率都很大,这种词对于图片的标示性很低,即使概率大也不应该赋予比较高的重要性;因此来一个修正,分母代表的是这个词语在整个训练语料库中出现的概率,越常见的词这个概率越大,与重要性成反比。

接下来,又是贝叶斯概率公式,上,比较简单,5到6的过度,是因为给定了训练集以后,P(I)也就确定了,作为一个常数可以直接囊括到里去。

因此,上文说过,可以很好的拟合概率,带进来,便有

便得到每个词的重要性,对于更为重要的词,希望可以在训练过程中施加更为重要的影响,在最后训练的目标函数中引入了这个参数。

2.预测阶段的reference

对于预测阶段,目标图片是J,生成的描述句子用R表示。这里通常的做法是使用对数似然概率来表示,这篇文章引入consensus score,并对两个指标进行了归一化。

最后的评价标准如下:

作者认为,consensus score的引入可以修正误判,并且使句子更加自然。

 

参考文献:

 Reference Based LSTM for Image Captioning. Minghai Chen, Guiguang Ding, Sicheng Zhao, Hui Chen, Qiang Liu, Jungong Han.

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值