-
参考自
-
0 Abstract
-
encoder-decoder框架广泛使用,但大部分方法在生成每个词语时,会强行令视觉注意信息发挥效力
-
the和of等非视觉词不需要从图片中获取视觉信息,看上来像视觉词汇的词语经常可依赖语言模型进行可靠的预测
-
提出了一个新的带视觉哨兵(visual sentinel)的自适应注意力模型(adaptive attention model)。在预测的每一步,是否注意图像,注意哪里
-
-
1 Introduction
-
基于注意力的视觉神经编码-译码模型的研究,引入注意力机制,生成一个空间图spatial map,标识了与每个生成的词语相关的图像区域
-
标注里不是所有的词都有对应的视觉信息,并且语言之间的关联性会使预测过程不怎么需要视觉信息。非视觉词汇的梯度,会误导和减弱视觉信息在控制标注语句生成过程的整体效果。
-
提出一个自适应注意力编码-译码框架,能够自动决定何时依赖视觉信息、何时依赖语言模型。在依赖视觉信息时,模型也决定了具体应该关注图像的哪块区域,为了提取空间图像特征,提出了一个新型的空间关注模型。采用了一个新的LSTM扩展方法,能够生成一个额外的视觉哨兵向量,而不是一个单一的隐藏状态。视觉哨兵是一个额外的对译码器存储的隐式表示,进一步设计一个新的哨兵门,决定译码器在生成下一词语时从图像中获取信息的多与少。
-
自适应注意力模型做了扩展分析,包括词语的视觉基础概率visual grounding probabilities和生成的注意力图attention maps的弱监督定位weakly supervised localization。
-
-
2 Method
-
Encoder-Decoder模型框架
-
在普通的编码-译码框架中, c t c_t ct 仅依赖于编码器CNN。输入图像 I I I 被输入CNN网络,将最后一个全连接层提取作为整体图像的特征。在生成词语的整个过程中,上下文向量 c t c_t ct 保持不变,也不依赖于译码器的隐藏状态。
-
在基于注意力的框架中, c t c_t ct 同时依赖编码器和译码器。在 t t t 时刻,在隐藏状态的基础上,译码器能够关注图像的特定区域,并利用CNN网络中的一个卷积层的空间图像特征来计算 c t c_t ct 。注意力模型能明显提升图像标注的性能。
-
-
Spatial Attention Model
-
空间注意力模型
-
公式略
-
利用当前的隐藏状态 h t h_t ht 来判断看向哪(如生成上下文向量 c t c_t ct ),然后结合两者信息来预测下一个词语。由Deep captioning with multimodal recurrent neural networks一文中显示的残差网络的优越性能。生成的上下文向量 c t c_t ct 可被看作当前隐藏状态 h t h_t ht 的剩余视觉信息,削弱了不确定性并为预测下一词语补充了当前隐藏状态的信息量。
-
Figure2 比较了Show, attend and tell: Neural image caption generation with visual attention中的模型和本文模型的区别
-
-
Adaptive Attention Model
-
视觉哨兵:模型提取新的组件,当选择不关注图像时,模型可以回退,新的组件被称为视觉哨兵,决定是关注图像信息还是视觉哨兵的门就是哨兵门。
-
LSTM的扩展: g t = σ ( W t x t + W h h t − 1 ) g_t=\sigma(W_tx_t+W_hh_{t-1}) gt=σ(Wtxt+Whht−1) 和 s t = g t ⨀ t a n h ( m t ) s_t=g_t\bigodot tanh(m_t) st=gt⨀tanh(mt) 。 m t m_t mt是memory cell,也有些用 c t c_t ct 表示。
-
新的自适应上下文向量定义为 c t c_t ct,定义如下 c ^ t = β t s t + ( 1 − β t ) c t \hat{c}_t={\beta_t} s_t + (1-\beta_t)c_t c^t=βtst+(1−βt)ct 。其中, β t \beta_t βt 是 t t t 时刻新的哨兵门。在结合模型中中, β t \beta_t βt 生成一个 [0,1]之间的标量。当取值为1时,表示在生成下一词语时,只使用视觉哨兵信息;当值为0时,只使用空间图像信息。
-
spatial attention部分k个区域的attention分布 α t \alpha_t αt 也被扩展成了 α t ^ \hat{\alpha_t} αt^ ,做法是在 z t z_t zt 后面拼接上一个元素。 公式是 α t ^ = s o f t m a x ( [ z t ; w h T t a n h ( W s s t + ( W g h t ) ) ] ) \hat{\alpha_t}=softmax([z_t;w_h^Ttanh(W_ss_t+(W_gh_t))]) αt^=softmax([zt;whTtanh(Wsst+(Wght))]) 。于是扩展后 α t ^ \hat{\alpha_t} αt^ 有k+1个元素,而 β t = α t ^ [ k + 1 ] \beta_t=\hat{\alpha_t}[k+1] βt=αt^[k+1]
-
公式可以化简为
β t = w h T t a n h ( W s s t + ( W g h t ) ) \beta_t=w_h^Ttanh(W_ss_t+(W_gh_t)) βt=whTtanh(Wsst+(Wght))
c ^ t = β t s t + ( 1 − β t ) c t \hat{c}_t={\beta_t} s_t + (1-\beta_t)c_t c^t=βtst+(1−βt)ct
α t ^ = s o f t m a x ( [ z t ; β t ] ) \hat{\alpha_t}=softmax([z_t;\beta_t]) αt^=softmax([zt;βt])
-
最后的单词概率分布
p t = s o f t m a x ( W p ( c ^ + h t ) ) p_t=softmax(W_p(\hat{c}+h_t)) pt=softmax(Wp(c^+ht))
-
-
-
3 实现细节
-
选择了ResNet的最后一层卷积层的特征来表示图像,维度是2048x7x7,全局图像特征则是局部特征的平均
-
全局图像特征将与word embedding拼接在一起成为LSTM的输入,局部图像特征用于attention部分
-
-
4 相关工作
-
基于模板的方法
-
基于神经网络的方法
-
-
5 实验结果
-
设置
-
在Flickr30k和MSCOCO数据集上的比较,定量分析
-
定性分析,caption生成区域结果分析,生成权重分析,视觉词与非视觉词统计的分析
-
略
-
论文阅读_Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning
最新推荐文章于 2024-03-08 17:35:28 发布