image caption学习笔记

最新推荐文章于 2023-06-11 14:45:30 发布

imperfect00

最新推荐文章于 2023-06-11 14:45:30 发布

阅读量1.2k

点赞数

分类专栏： tensorflow学习笔记深度学习 NLP 图像处理

本文链接：https://blog.csdn.net/u011961856/article/details/83624803

版权

深度学习同时被 3 个专栏收录

71 篇文章 2 订阅

订阅专栏

图像处理

40 篇文章 0 订阅

订阅专栏

NLP

28 篇文章 0 订阅

订阅专栏

show and tell

cnn-lstm结构，cnn部分采用vgg,使用的是vgg的fc2层作为输出图片特征。得到图片特征后，将其输入一个线性层（CNN），得到 $x_{-1}$ 作为第一个lstm的输入，对于输入句子的每个字 $s_{t}$ ，将其与权重参数 $w_e$ 相乘，输出作为lstm的输入，

在这里插入图片描述

模型结构如下，

在这里插入图片描述

inference

有两种方法得到输出，一种是直接去概率最大的索引的字作为输出，另一种是beam search,每次输出为前k个概率最大的值。文中采用beam size值为20,相比beam size为1（greedy search）,bleu值提高了2.

neural_image_captioning

训练过程

执行Python train.py

结果生成过程

两种方式：

Python evaluator.py

一种是将全部图片转为向量保存下来，然后再跑出描述结果（当数据量较小时使用，占用内存多、速度较快）

Python caption.py

另外一种方式是每次生成一张照片的特征向量，传入模型（当数据量较大的时候使用，占用内存少、速度较慢）

SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning

attention机制包括3种，spatial attention,主要考虑的是图像的feature map的每个位置对生成词的权重; semantic attention,主要考虑的是图像与生成的词之间的关系权重;以及multi-layer attention,采用cnn的多个层的特征

Spatial and Channel-wise Attention CNN

在这里插入图片描述

$X^{l-1}$ 为第 $l - 1$ 层的合成feature, $h_{t-1}$ 为第t-1个lstm序列输出， $\phi$ 为spatial and channel-wise attention函数。 $V^l$ 为前面卷基层的输出feature map. $\gamma^l$ 为attention weights，大小与 $V^l$ , $X^l$ 相同。

生成第t个词公式为，

在这里插入图片描述

L为卷基层的总数。

由于 $\gamma^l$ 大小与 $V^l$ , $X^l$ 相同，如果大小为 $W^l*H^l*C^l$ 的话，那么attention的计算需要计算量为 $O(W^lH^lC^lk))$ ,k为lstm的隐藏层大小,当feature map很大的时候，计算量将非常大。因此，本文提出来分开学习spatial attention weights $\alpha^l$ ，channel-wise attention weights $\beta^l$ ，

在这里插入图片描述

这样，计算量为spatial attention， $O(W^lH^lk))$ ， channel-wise attention ， $O(C^lk))$ 。

spatial attention

对于每个生成的词，其仅与图像的部分区域相关。例如，图1中，要生成cake,仅与图像中的cake区域相关。因此，如将图像的所有区域特征用于生成当前的词，可能会导致生成不相干的词。spatial attention机制是将注意力集中于与生成词相关的区域。将V reshape为 $V=[v_1,v_2,...,v_m]$ , $v_i\in R^C$ ,也就是将每个为wh大小的feature map在所有通道上 flaten为向量v。m=W H. $\phi_s$ 定义如下，

在这里插入图片描述

$W_s\in R^{k*C},W_{hs}\in R^{k*d,W_i\in R^k}$ ， $b_s\in R^k,b_i\in R^1$ 。

channel-wise attention

将V reshape为 $U=[u_1,u_2,...,u_C],u_i\in R^{W*H}$ ，C为feature map的通道个数。

之后对每个通道进行mean pooling,以获得通道feature v，

channel-wise attention

在这里插入图片描述

$\phi_s$ 定义如下，
在这里插入图片描述

$W_c\in R^k, W_{hc} \in R^{kd} ,W_i\in R^k$ , $b_c\in R^k,b_i\in R^1$ 。

得到两个attention weights后，便可以计算合成feature map X，

Channel-Spatial

在这里插入图片描述

Spatial-Channel
在这里插入图片描述

imperfect00

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
image caption学习笔记

show and tellcnn-lstm结构，cnn部分采用vgg,使用的是vgg的fc2层作为输出图片特征。得到图片特征后，将其输入一个线性层（CNN），得到x−1x_{-1}x−1作为第一个lstm的输入，对于输入句子的每个字sts_{t}st，将其与权重参数wew_ewe相乘，输出作为lstm的输入，模型结构如下，inference有两种方法得到输出，一种是直接去概率最大...
复制链接

扫一扫

专栏目录