image caption学习笔记

40 篇文章 0 订阅
28 篇文章 0 订阅

show and tell

cnn-lstm结构,cnn部分采用vgg,使用的是vgg的fc2层作为输出图片特征。得到图片特征后,将其输入一个线性层(CNN),得到 x − 1 x_{-1} x1作为第一个lstm的输入,对于输入句子的每个字 s t s_{t} st,将其与权重参数 w e w_e we相乘,输出作为lstm的输入,

在这里插入图片描述

模型结构如下,

在这里插入图片描述

inference

有两种方法得到输出,一种是直接去概率最大的索引的字作为输出,另一种是beam search,每次输出为前k个概率最大的值。文中采用beam size值为20,相比beam size为1(greedy search),bleu值提高了2.

neural_image_captioning

训练过程

执行Python train.py

结果生成过程

两种方式:

Python evaluator.py

一种是将全部图片转为向量保存下来,然后再跑出描述结果(当数据量较小时使用,占用内存多、速度较快)

Python caption.py

另外一种方式是每次生成一张照片的特征向量,传入模型(当数据量较大的时候使用,占用内存少、速度较慢)

SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning

attention机制包括3种,spatial attention,主要考虑的是图像的feature map的每个位置对生成词的权重; semantic attention,主要考虑的是图像与生成的词之间的关系权重;以及multi-layer attention,采用cnn的多个层的特征

Spatial and Channel-wise Attention CNN

在这里插入图片描述

X l − 1 X^{l-1} Xl1为第 l − 1 l-1 l1层的合成feature, h t − 1 h_{t-1} ht1为第t-1个lstm序列输出, ϕ \phi ϕ为spatial and channel-wise attention函数。 V l V^l Vl为前面卷基层的输出feature map. γ l \gamma^l γl为attention weights,大小与 V l V^l Vl, X l X^l Xl相同。

生成第t个词公式为,

在这里插入图片描述

L为卷基层的总数。

由于 γ l \gamma^l γl大小与 V l V^l Vl, X l X^l Xl相同,如果大小为 W l ∗ H l ∗ C l W^l*H^l*C^l WlHlCl的话,那么attention的计算需要计算量为 O ( W l H l C l k ) ) O(W^lH^lC^lk)) O(WlHlClk)),k为lstm的隐藏层大小,当feature map很大的时候,计算量将非常大。因此,本文提出来分开学习spatial attention weights α l \alpha^l αl,channel-wise attention weights β l \beta^l βl

在这里插入图片描述

这样,计算量为spatial attention, O ( W l H l k ) ) O(W^lH^lk)) O(WlHlk)), channel-wise attention , O ( C l k ) ) O(C^lk)) O(Clk))

spatial attention

对于每个生成的词,其仅与图像的部分区域相关。例如,图1中,要生成cake,仅与图像中的cake区域相关。因此,如将图像的所有区域特征用于生成当前的词,可能会导致生成不相干的词。spatial attention机制是将注意力集中于与生成词相关的区域。将V reshape为 V = [ v 1 , v 2 , . . . , v m ] V=[v_1,v_2,...,v_m] V=[v1,v2,...,vm], v i ∈ R C v_i\in R^C viRC,也就是将每个为wh大小的feature map在所有通道上 flaten为向量v。m=W H. ϕ s \phi_s ϕs定义如下,

在这里插入图片描述

W s ∈ R k ∗ C , W h s ∈ R k ∗ d , W i ∈ R k W_s\in R^{k*C},W_{hs}\in R^{k*d,W_i\in R^k} WsRkC,WhsRkd,WiRk b s ∈ R k , b i ∈ R 1 b_s\in R^k,b_i\in R^1 bsRk,biR1

channel-wise attention

将V reshape为 U = [ u 1 , u 2 , . . . , u C ] , u i ∈ R W ∗ H U=[u_1,u_2,...,u_C],u_i\in R^{W*H} U=[u1,u2,...,uC],uiRWH,C为feature map的通道个数。

之后对每个通道进行mean pooling,以获得通道feature v,

channel-wise attention

在这里插入图片描述

ϕ s \phi_s ϕs定义如下,
在这里插入图片描述

W c ∈ R k , W h c ∈ R k d , W i ∈ R k W_c\in R^k, W_{hc} \in R^{kd} ,W_i\in R^k WcRk,WhcRkd,WiRk, b c ∈ R k , b i ∈ R 1 b_c\in R^k,b_i\in R^1 bcRk,biR1

得到两个attention weights后,便可以计算合成feature map X,

Channel-Spatial

在这里插入图片描述

Spatial-Channel
在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值