论文阅读_Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning

  • 参考自

  • 0 Abstract

    • encoder-decoder框架广泛使用,但大部分方法在生成每个词语时,会强行令视觉注意信息发挥效力

    • the和of等非视觉词不需要从图片中获取视觉信息,看上来像视觉词汇的词语经常可依赖语言模型进行可靠的预测

    • 提出了一个新的带视觉哨兵(visual sentinel)的自适应注意力模型(adaptive attention model)。在预测的每一步,是否注意图像,注意哪里

  • 1 Introduction

    • 基于注意力的视觉神经编码-译码模型的研究,引入注意力机制,生成一个空间图spatial map,标识了与每个生成的词语相关的图像区域

    • 标注里不是所有的词都有对应的视觉信息,并且语言之间的关联性会使预测过程不怎么需要视觉信息。非视觉词汇的梯度,会误导和减弱视觉信息在控制标注语句生成过程的整体效果。

    • 提出一个自适应注意力编码-译码框架,能够自动决定何时依赖视觉信息、何时依赖语言模型。在依赖视觉信息时,模型也决定了具体应该关注图像的哪块区域,为了提取空间图像特征,提出了一个新型的空间关注模型。采用了一个新的LSTM扩展方法,能够生成一个额外的视觉哨兵向量,而不是一个单一的隐藏状态。视觉哨兵是一个额外的对译码器存储的隐式表示,进一步设计一个新的哨兵门,决定译码器在生成下一词语时从图像中获取信息的多与少。

    • 自适应注意力模型做了扩展分析,包括词语的视觉基础概率visual grounding probabilities和生成的注意力图attention maps的弱监督定位weakly supervised localization。

  • 2 Method

    • Encoder-Decoder模型框架

      • 在普通的编码-译码框架中, c t c_t ct 仅依赖于编码器CNN。输入图像 I I I 被输入CNN网络,将最后一个全连接层提取作为整体图像的特征。在生成词语的整个过程中,上下文向量 c t c_t ct 保持不变,也不依赖于译码器的隐藏状态。

      • 在基于注意力的框架中, c t c_t ct 同时依赖编码器和译码器。在 t t t 时刻,在隐藏状态的基础上,译码器能够关注图像的特定区域,并利用CNN网络中的一个卷积层的空间图像特征来计算 c t c_t ct 。注意力模型能明显提升图像标注的性能。

    • Spatial Attention Model

      • 空间注意力模型

      • 公式略

      • 利用当前的隐藏状态 h t h_t ht 来判断看向哪(如生成上下文向量 c t c_t ct ),然后结合两者信息来预测下一个词语。由Deep captioning with multimodal recurrent neural networks一文中显示的残差网络的优越性能。生成的上下文向量 c t c_t ct 可被看作当前隐藏状态 h t h_t ht 的剩余视觉信息,削弱了不确定性并为预测下一词语补充了当前隐藏状态的信息量。

      • Figure2 比较了Show, attend and tell: Neural image caption generation with visual attention中的模型和本文模型的区别

    • Adaptive Attention Model

      • 视觉哨兵:模型提取新的组件,当选择不关注图像时,模型可以回退,新的组件被称为视觉哨兵,决定是关注图像信息还是视觉哨兵的门就是哨兵门。

      • LSTM的扩展: g t = σ ( W t x t + W h h t − 1 ) g_t=\sigma(W_tx_t+W_hh_{t-1}) gt=σ(Wtxt+Whht1) s t = g t ⨀ t a n h ( m t ) s_t=g_t\bigodot tanh(m_t) st=gttanh(mt) m t m_t mt是memory cell,也有些用 c t c_t ct 表示。

      • 新的自适应上下文向量定义为 c t c_t ct,定义如下 c ^ t = β t s t + ( 1 − β t ) c t \hat{c}_t={\beta_t} s_t + (1-\beta_t)c_t c^t=βtst+(1βt)ct 。其中, β t \beta_t βt t t t 时刻新的哨兵门。在结合模型中中, β t \beta_t βt 生成一个 [0,1]之间的标量。当取值为1时,表示在生成下一词语时,只使用视觉哨兵信息;当值为0时,只使用空间图像信息。

      • spatial attention部分k个区域的attention分布 α t \alpha_t αt 也被扩展成了 α t ^ \hat{\alpha_t} αt^ ,做法是在 z t z_t zt 后面拼接上一个元素。 公式是 α t ^ = s o f t m a x ( [ z t ; w h T t a n h ( W s s t + ( W g h t ) ) ] ) \hat{\alpha_t}=softmax([z_t;w_h^Ttanh(W_ss_t+(W_gh_t))]) αt^=softmax([zt;whTtanh(Wsst+(Wght))]) 。于是扩展后 α t ^ \hat{\alpha_t} αt^ 有k+1个元素,而 β t = α t ^ [ k + 1 ] \beta_t=\hat{\alpha_t}[k+1] βt=αt^[k+1]

      • 公式可以化简为

        β t = w h T t a n h ( W s s t + ( W g h t ) ) \beta_t=w_h^Ttanh(W_ss_t+(W_gh_t)) βt=whTtanh(Wsst+(Wght))

        c ^ t = β t s t + ( 1 − β t ) c t \hat{c}_t={\beta_t} s_t + (1-\beta_t)c_t c^t=βtst+(1βt)ct

        α t ^ = s o f t m a x ( [ z t ; β t ] ) \hat{\alpha_t}=softmax([z_t;\beta_t]) αt^=softmax([zt;βt])

      • 最后的单词概率分布

        p t = s o f t m a x ( W p ( c ^ + h t ) ) p_t=softmax(W_p(\hat{c}+h_t)) pt=softmax(Wp(c^+ht))

  • 3 实现细节

    • 选择了ResNet的最后一层卷积层的特征来表示图像,维度是2048x7x7,全局图像特征则是局部特征的平均

    • 全局图像特征将与word embedding拼接在一起成为LSTM的输入,局部图像特征用于attention部分

  • 4 相关工作

    • 基于模板的方法

    • 基于神经网络的方法

  • 5 实验结果

    • 设置

    • 在Flickr30k和MSCOCO数据集上的比较,定量分析

    • 定性分析,caption生成区域结果分析,生成权重分析,视觉词与非视觉词统计的分析

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值