论文阅读_Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning

最新推荐文章于 2024-03-08 17:35:28 发布

HelloBlueRain

最新推荐文章于 2024-03-08 17:35:28 发布

阅读量440

点赞数

分类专栏：机器学习入门

原文链接：https://bacterous.github.io/2018/09/13/Knowing-When-to-Look-Adaptive-Attention-via-A-Visual-Sentinel-for-Image-Captioning/

版权

机器学习入门专栏收录该内容

5 篇文章 0 订阅

订阅专栏

参考自
- https://bacterous.github.io/2018/09/13/Knowing-When-to-Look-Adaptive-Attention-via-A-Visual-Sentinel-for-Image-Captioning/
- https://blog.csdn.net/sinat_26253653/article/details/79416234
0 Abstract
- encoder-decoder框架广泛使用，但大部分方法在生成每个词语时，会强行令视觉注意信息发挥效力
- the和of等非视觉词不需要从图片中获取视觉信息，看上来像视觉词汇的词语经常可依赖语言模型进行可靠的预测
- 提出了一个新的带视觉哨兵（visual sentinel）的自适应注意力模型(adaptive attention model)。在预测的每一步，是否注意图像，注意哪里
1 Introduction
- 基于注意力的视觉神经编码-译码模型的研究，引入注意力机制，生成一个空间图spatial map，标识了与每个生成的词语相关的图像区域
- 标注里不是所有的词都有对应的视觉信息，并且语言之间的关联性会使预测过程不怎么需要视觉信息。非视觉词汇的梯度，会误导和减弱视觉信息在控制标注语句生成过程的整体效果。
- 提出一个自适应注意力编码-译码框架，能够自动决定何时依赖视觉信息、何时依赖语言模型。在依赖视觉信息时，模型也决定了具体应该关注图像的哪块区域，为了提取空间图像特征，提出了一个新型的空间关注模型。采用了一个新的LSTM扩展方法，能够生成一个额外的视觉哨兵向量，而不是一个单一的隐藏状态。视觉哨兵是一个额外的对译码器存储的隐式表示，进一步设计一个新的哨兵门，决定译码器在生成下一词语时从图像中获取信息的多与少。
- 自适应注意力模型做了扩展分析，包括词语的视觉基础概率visual grounding probabilities和生成的注意力图attention maps的弱监督定位weakly supervised localization。
2 Method
- Encoder-Decoder模型框架
  - 在普通的编码-译码框架中， $c_t$ 仅依赖于编码器CNN。输入图像 $I$ 被输入CNN网络，将最后一个全连接层提取作为整体图像的特征。在生成词语的整个过程中，上下文向量 $c_t$ 保持不变，也不依赖于译码器的隐藏状态。
  - 在基于注意力的框架中， $c_t$ 同时依赖编码器和译码器。在 $t$ 时刻，在隐藏状态的基础上，译码器能够关注图像的特定区域，并利用CNN网络中的一个卷积层的空间图像特征来计算 $c_t$ 。注意力模型能明显提升图像标注的性能。
- Spatial Attention Model
  - 空间注意力模型
  - 公式略
  - 利用当前的隐藏状态 $h_t$ 来判断看向哪（如生成上下文向量 $c_t$ ），然后结合两者信息来预测下一个词语。由Deep captioning with multimodal recurrent neural networks一文中显示的残差网络的优越性能。生成的上下文向量 $c_t$ 可被看作当前隐藏状态 $h_t$ 的剩余视觉信息，削弱了不确定性并为预测下一词语补充了当前隐藏状态的信息量。
  - Figure2 比较了Show, attend and tell: Neural image caption generation with visual attention中的模型和本文模型的区别
- Adaptive Attention Model
  - 视觉哨兵：模型提取新的组件，当选择不关注图像时，模型可以回退，新的组件被称为视觉哨兵，决定是关注图像信息还是视觉哨兵的门就是哨兵门。
  - LSTM的扩展： $g_t=\sigma(W_tx_t+W_hh_{t-1})$ 和 $s_t=g_t\bigodot tanh(m_t)$ 。 $m_t$ 是memory cell，也有些用 $c_t$ 表示。
  - 新的自适应上下文向量定义为 $c_t$ ，定义如下 $\hat{c}_t={\beta_t} s_t + (1-\beta_t)c_t$ 。其中， $\beta_t$ 是 $t$ 时刻新的哨兵门。在结合模型中中， $\beta_t$ 生成一个 [0,1]之间的标量。当取值为1时，表示在生成下一词语时，只使用视觉哨兵信息；当值为0时，只使用空间图像信息。
  - spatial attention部分k个区域的attention分布 $\alpha_t$ 也被扩展成了 $\hat{\alpha_t}$ ，做法是在 $z_t$ 后面拼接上一个元素。公式是 $\hat{\alpha_t}=softmax([z_t;w_h^Ttanh(W_ss_t+(W_gh_t))])$ 。于是扩展后 $\hat{\alpha_t}$ 有k+1个元素，而 $\beta_t=\hat{\alpha_t}[k+1]$
  - 公式可以化简为
    
    $\beta_t=w_h^Ttanh(W_ss_t+(W_gh_t))$
    
    $\hat{c}_t={\beta_t} s_t + (1-\beta_t)c_t$
    
    $\hat{\alpha_t}=softmax([z_t;\beta_t])$
  - 最后的单词概率分布
    
    $p_t=softmax(W_p(\hat{c}+h_t))$
3 实现细节
- 选择了ResNet的最后一层卷积层的特征来表示图像，维度是2048x7x7，全局图像特征则是局部特征的平均
- 全局图像特征将与word embedding拼接在一起成为LSTM的输入，局部图像特征用于attention部分
4 相关工作
- 基于模板的方法
- 基于神经网络的方法
5 实验结果
- 设置
- 在Flickr30k和MSCOCO数据集上的比较，定量分析
- 定性分析，caption生成区域结果分析，生成权重分析，视觉词与非视觉词统计的分析
- 略

HelloBlueRain

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
论文阅读_Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning

参考自https://bacterous.github.io/2018/09/13/Knowing-When-to-Look-Adaptive-Attention-via-A-Visual-Sentinel-for-Image-Captioning/https://blog.csdn.net/sinat_26253653/article/details/794162340...
复制链接

扫一扫

专栏目录