image caption（四）文章及代码的一些解析

最新推荐文章于 2024-01-21 11:22:34 发布

请设置你的昵称

最新推荐文章于 2024-01-21 11:22:34 发布

阅读量1.8k

点赞数

分类专栏： image caption

本文链接：https://blog.csdn.net/weixin_38440272/article/details/84635201

版权

6 篇文章 0 订阅

订阅专栏

show and tell是直接调用的LSTM

LSTM网络包括的结构为：

输入： $x_{t}$ 、 $h_{t-1}$

输出： $h_{t}$

其他：由四个主要的门组成

第一步：

第二步：

第三步：

第四步：

我理解的这篇文章算是encoder decoder中，运用CNN编码，RNN解码的鼻祖，github上有代码，neraultalk2和im2txt。

我研究的是im2txt代码。

在论文中，编码部分是将图片输入到CNN（比如InceptionV3）的卷积层最后一层，得到image_embedding的数据，将输入和voab对比，生成seq_embedding数据。

在训练阶段，将image_embedding当作初始状态输入进lstm中，之后依次输入seq_embedding，通过dynamic_rnn训练，最后得到output。其中loss是由总的loss和batch的loss求和得到的。

在inference也就是测试阶段，直接将数据输入到lstm中，得到output。

本文用的是原始的lstm框架，所以额外需要理解的就是输入输出空间大小问题了。

本文相比于上篇，主要有以下不一样的地方：

编码器不是CNN的最后一层，而是更前面的层，因为需要空间特征，比如vgg19的conv5_3
增加了两个attention特征。一个是根据输入的图像feature特征和隐层数据推导出来的，将比例与原图像feature特征相乘，得到新的输入特征；另一个是加了一个随机beta特征
loss的计算方式，加上了上面一项求和为1的项
并且多加了几个感知机的层

分析几个变量和结构：

1.初始化

主要有c和h的初始变量，初始化方法为 $c,h=f(W\ast feature+b),f(W\ast feature+b)$