论文笔记：Knowing When to Look:Adaptive Attention via A Visual Sentinel for Image Captioning

最新推荐文章于 2024-05-30 18:46:04 发布

lifeGWT

最新推荐文章于 2024-05-30 18:46:04 发布

阅读量1.8k

点赞数 2

本文链接：https://blog.csdn.net/jijiayinumber1/article/details/81558497

版权

image caption 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

这篇文章首先认为，非视觉词比如the,of等的挖掘，并不需要视觉信息，它们的梯度反而会影响到视觉信息的有效性，因此该文引进一个参数，来控制attention中视觉信息和历史信息的比重，作者设计了蕴含历史信息的visual sentinel，来表示已生成文本的历史信息。相当于从时间的维度来决定什么时候看，看多少。此外，作者还改变了空间attention机制。

首先，作者提出了改进的spatial attention模型，如下图。前者是传统的attention，由决定要看的图片信息，而这篇文章则决定由来决定看的信息，作者认为这可以降低隐含层对于下一个词预测的不确定性。此外，和传统的模型并无区别。

接下来，就是本文的核心创新，作者认为,对于非视觉词，它们的生成应该取决于generator的历史信息而不是视觉信息，因此在这种情况下应该对视觉信息加以控制。所以在此处引进visual sentinel。具体如下图。

和前面改进的空间模型相比，就是多了一个信息，而它的生成结构其实和是一致的，所以它所蕴含的就是generator已经生成的文本信息。

将引入到attention以后，attention生成的新context向量如下，引入一个新的参数，将原有的context向量与进行加权。当为1时，则当前time step文本的生成只取决于之前已生成的文本信息，为0则只取决于视觉信息，与上文的空间attention机制一样。由此，便可以决定在t时刻是否看视觉信息，以及看多少。

后文继续介绍了的生成。在改进过的空间模型中，的建立公式如下，

在这儿，通过来扩充一个维度，来代表的相对权重，操作如下，

此时取

参考文献

Lu J, Xiong C, Parikh D, et al. Knowing When to Look: Adaptive Attention via a Visual Sentinel for Image Captioning[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2017:3242-3250.

lifeGWT

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
论文笔记：Knowing When to Look:Adaptive Attention via A Visual Sentinel for Image Captioning

这篇文章首先认为，非视觉词比如the,of等的挖掘，并不需要视觉信息，它们的梯度反而会影响到视觉信息的有效性，因此该文引进一个参数，来控制attention中视觉信息和历史信息的比重，作者设计了蕴含历史信息的visual sentinel，来表示已生成文本的历史信息。相当于从时间的维度来决定什么时候看，看多少。此外，作者还改变了空间attention机制。首先，作者提出了改进的spatial ...
复制链接

扫一扫