小白读论文之. Show and Tell Lessons learned from the 2015 MSCOCO Image Captioning Challenge

最新推荐文章于 2021-08-15 12:40:35 发布

关切得大神

最新推荐文章于 2021-08-15 12:40:35 发布

阅读量181

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_41115379/article/details/110824317

版权

深度学习专栏收录该内容

36 篇文章 1 订阅

订阅专栏

首先先了解一些知识和概念
什么是 encoder和decoder方法

这里是对这个解释的最全面的网站链接：https://blog.csdn.net/weixin_39653948/article/details/105672741
对于encoder-decoder的理解：首先他不是一个具体的模型，而是一类框架。他的部分可以是任意的文字，语音等等，而模型也可以是CNN,RNN等等。而其中对于编码的定义就是：将输入序列转化为一个固定长度的向量，同理，解码的定义就是：将之前生成的固定的向量转化为输出序列。

什么是CNN,RNN,LSTM

首先是RNN(循环神经网络)：
特点是比较适合用于序列数据的处理。比如文本和视频，因为这类样本是存在着顺序关系的，也就是一个样本和之前的样本之间有联系。

结构展示：
在这里插入图片描述
其次是CNN（卷积神经网络）

特点：他是一种前馈神经网络，不会和RNN一样形成一个环，而是每个神经元只和前一层的神经元相连，数据从前向后传播，不会产生环
一般是由卷积层，池化层和全连接层组成，一般是用作在图像处理中。这个文章有告诉，为什么适合图像
https://blog.csdn.net/zandaoguang/article/details/104871924
（总的来说就是数据太多，可以有个映射）

结构展示：
在这里插入图片描述
最后是LSTM（长短时记忆）

特点：可以简单理解为一种更加复杂的RNN，在处理时间序列当中间隔和延迟较长时，LSTM比RNN效果更好。结构展示：

（下面那个是RNN）
在这里插入图片描述
而针对这篇文章，在了解了上面这些知识之后，就可以对于模型有了一个比较基本的了解，那就是使用了encoder-decoder模型，并且在于encoder部分使用的是CNN，而decoder部分使用的是LSTM

在这里插入图片描述
还有些很细节的东西：通过看左边这个image,可以看到，他使用的是GoogLeNet

其次是训练：
细节在于如何消除过拟合化，做一个初始训练模型，例如在ImageNet上等等操作。
再是结果判断
作者采用了数据集的训练评估和基于人手动的评估。
迁移学习，数据大小和标签质量
最明显的是再Flick30k和Flickr8k之间，Flick30k会比另一个好4个BLUE点，所以作者得出在那种情况下，可以通过添加数据来获得收益，但与这个结果相违背的是MSCOCO，因为他有着更多的训练数据，但是由于很多其他因素的干扰，BLUE反而下降。
Generation Diversity Discussion
也就是判断是否可以能产生新颖的描述，captions是否多样性和高质量。
质量高是体系潜在，如果选择最佳的候选，其中80%都是训练集里面的，而只分析产生的前十五的句子的话，有一半是产生新的描述，这也能说明多样性的存在。

关切得大神

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
小白读论文之. Show and Tell Lessons learned from the 2015 MSCOCO Image Captioning Challenge

首先先了解一些知识和概念什么是 encoder和decoder方法这里是对这个解释的最全面的网站链接：https://blog.csdn.net/weixin_39653948/article/details/105672741对于encoder-decoder的理解：首先他不是一个具体的模型，而是一类框架。他的部分可以是任意的文字，语音等等，而模型也可以是CNN,RNN等等。而其中对于编码的定义就是：将输入序列转化为一个固定长度的向量，同理，解码的定义就是：将之前生成的固定的向量转化为输出序列。
复制链接

扫一扫