论文笔记：Image Captioning with Semantic Attention

最新推荐文章于 2024-01-02 19:49:41 发布

Jamiechoi

最新推荐文章于 2024-01-02 19:49:41 发布

阅读量4.9k

点赞数 2

分类专栏：论文笔记文章标签：深度学习深度学习与计算机视觉论文笔记

本文链接：https://blog.csdn.net/sinat_26253653/article/details/78260985

版权

论文笔记专栏收录该内容

6 篇文章 3 订阅

订阅专栏

论文链接：Image Captioning with Semantic Attention

框架

这里写图片描述

与普通的image Caption框架相比，论文从图片中提取了visual attribute（实际上就是一些单词），并把这些attribute结合进了input跟output attention model里面。

整个框架的公式如下：

$x_0=\phi_0(v)=W^{x,v}v$

$h_t=RNN(h_{t-1},x_t)$

$Y_t\sim p_t=\varphi(h_t, \{A_i\})$

$x_t=\phi(Y_{t-1},\{A_i\}),\ t>0$

$v$ : CNN中间层的响应 (global visual description), 只在initial input $x_0$ 中被使用。

$\{A_i\}$ : a set of visual attributes or concepts
对于这个attributes, 文章提出了三种方法来提取，分别是：
1. 用图像的caption在数据库以最近邻方法查找相近的图片，并选择其标签
2. 使用多标签的分类器
3. 使用全卷积网络(FCN）
而文章重点并不在这里，就不详细介绍了

$\phi, \varphi$ : input and output models

文章把自己的做法和Show Attend and Tell的做法进行了对比，得出了几点主要的区别：

[2]的attention model由于是从CNN中提取的feature，需要固定的分辨率，而本文的concepts则没有分辨率的限制(attributes 的三种提取方法都不需要固定分辨率)，这个concepts甚至也不需要在图片中有直接的展现。
本文有一个结合了top-down information (the global visual feature，CNN信息) 和bottom-up concepts（attributes）的feedback过程（个人疑问1：这个feed back体现在哪里？），而[2]并没有这个过程。
[2]在图片特定的位置使用了pretrained CNN提取出的feature，而本文使用了word feature，因此可以使用外部的图像数据来训练visual concepts，使用文本数据来学习semantics between words。

input attention model

input attention model主要就是计算权重 $\alpha_t^i$ :

$\alpha_t^i\propto exp(y_{t-1}^T\tilde Uy^i)$

exp是指以softmax函数的方式将所有 $\{A_i \}$ 进行归一化
$\alpha_t^i$ : attribute $A_i$ 与前一个预测单词 $Y_{t-1}$ 的相关性
$y_{t-1},\ y^i$ : $Y_{t-1}$ 和 $A_i$ 的one-hot representation
$\tilde U\in\mathbb{R}^{|y|\times{|y|}}$ : 词典大小的矩阵。我认为可以这样理解，这个矩阵存放着每个单词和其他单词之间的相关性， $Y_{t-1}$ 和 $A_i$ 这样的one-hot向量对 $\tilde U$ 相乘就是进行一个查表的操作。这个矩阵因为只跟单词有关，因此同一个单词即使在句子中的不同位置出现，它下一个单词的 $\alpha_t^i$ 都是一样的。对 $\alpha_t^i$ 的可视化也验证了这一观点：

图中第二行是 $\alpha_t^i$ 的变化，可以看到，以单词”a”为例，对于出现在句子中不同位置的单词”a”，对应的attribute权重 $\alpha$ 都是一样的

$\alpha_t^i\propto exp(y_{t-1}^TE^TUEy^i)$

由于 $\tilde U$ 的维度太大，这里加入了word embedding 矩阵 $E$ 来进行降维。 $E$ 是以Word2Vec或者Glove来单独训练的，不参与最后的训练

$x_t=W^{x,Y}(Ey_{t-1}+diag(w^{x,A})\sum_i\alpha_t^iEy^i)$

$w^{x,A}$ 对visual attributes在word space的每个维度的相对重要性进行了建模。个人理解因为 $E$ 是单独训练的，存在一个不对应的问题，所以要加入 $w^{x,A}$
$x_t$ 作为模型的输入，这里把直接把attention部分和前一个单词的部分直接相加了，感觉应该用concatenate的方式会好一点？

output attention model

output attention model基本跟前面input attention model类似。

原文对 $\beta_t^i$ 的解释：

a different set of attention scores are calculated since visual concepts may be attended in different orders during the analysis and synthesis processes of a single sentence.

$\beta_t^i\propto exp(h^T_tV\sigma(Ey^i))$

由于加入了随时间变化的 $h_t^T$ ，所以 $\beta_t^i$ 跟 $\alpha_t^i$ 不一样。在不同位置的同一单词对下一个单词的 $\beta_t^i$ 是会变化的
$V\in\mathbb{R}^{n\times{d}}$ ：可以理解为V建立了隐状态 $h_t$ 与单词的embedding之间的相关性
因为 $h_t$ 输出的时候经历了一个非线性变换，因此这里也要加入激活函数 $\sigma$ 来对 $Ey^i$ 进行同样的变换