论文笔记：Reference based LSTM for Image Captioning

最新推荐文章于 2024-03-07 12:52:19 发布

lifeGWT

最新推荐文章于 2024-03-07 12:52:19 发布

阅读量686

点赞数

分类专栏： image caption 文章标签： image caption

本文链接：https://blog.csdn.net/jijiayinumber1/article/details/81739261

版权

image caption 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Reference based LSTM for Image Captioning

这篇文章，在训练阶段和预测阶段都加入了references:在训练阶段通过references来判断训练captions中出现的每个单词的重要性；在预测阶段则在选择生成的caption时，使用似然概率和consensus score的加权平均来权衡生成句子的好坏，这样可以使选出的句子更具准确性。

1.训练阶段的reference

首先这里要引入的概念，这是一个比较有趣的参数它的图示如下公式8所示。其中I表示的是卷积特征，而代表的是训练集中任意两两图片间的平均距离。两个图的，相似度越高，则这个值也就越大。

由下图，我们发现，通过bicycle索引出的图片（就是caption中同样拥有bicycle的图片），与目标图片比较高的相似度，也就是更大；而a索引出的图片则相似度更小。因此，可以用直接来代表这个单词在这个caption中的重要性。（这个概念其实就是很好的拟合，想想，确定一个词bicycle的情况下，找到了和它相似度较高的图片，不就说明的概率大吗）

接下来，便可以很好的引入这篇文章想要的重要性机制了。对于训练图片I对应的captions中的每一个词的重要性记为，如公式4所示。这个定义类似于TF-IDF：分子表示词语在这个图片中出现的概率，越大越好，但是有一类词在每个图片中出现的概率都很大，这种词对于图片的标示性很低，即使概率大也不应该赋予比较高的重要性；因此来一个修正，分母代表的是这个词语在整个训练语料库中出现的概率，越常见的词这个概率越大，与重要性成反比。

接下来，又是贝叶斯概率公式，上，比较简单，5到6的过度，是因为给定了训练集以后，P(I)也就确定了，作为一个常数可以直接囊括到里去。

因此，上文说过，可以很好的拟合概率，带进来，便有

便得到每个词的重要性，对于更为重要的词，希望可以在训练过程中施加更为重要的影响，在最后训练的目标函数中引入了这个参数。

2.预测阶段的reference

对于预测阶段，目标图片是J，生成的描述句子用R表示。这里通常的做法是使用对数似然概率来表示，这篇文章引入consensus score，并对两个指标进行了归一化。

最后的评价标准如下：

作者认为，consensus score的引入可以修正误判，并且使句子更加自然。

参考文献：

Reference Based LSTM for Image Captioning. Minghai Chen, Guiguang Ding, Sicheng Zhao, Hui Chen, Qiang Liu, Jungong Han.

lifeGWT

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
论文笔记：Reference based LSTM for Image Captioning

Reference based LSTM for Image Captioning 这篇文章，在训练阶段和预测阶段都加入了references:在训练阶段通过references来判断训练captions中出现的每个单词的重要性；在预测阶段则在选择生成的caption时，使用似然概率和consensus score的加权平均来权衡生成句子的好坏，这样可以使选出的句子更具准确性。...
复制链接

扫一扫