小白读论文之. Show and Tell Lessons learned from the 2015 MSCOCO Image Captioning Challenge

首先先了解一些知识和概念
什么是 encoder和decoder方法

这里是对这个解释的最全面的网站链接:https://blog.csdn.net/weixin_39653948/article/details/105672741
对于encoder-decoder的理解:首先他不是一个具体的模型,而是一类框架。他的部分可以是任意的文字,语音等等,而模型也可以是CNN,RNN等等。而其中对于编码的定义就是:将输入序列转化为一个固定长度的向量,同理,解码的定义就是:将之前生成的固定的向量转化为输出序列。

什么是CNN,RNN,LSTM

首先是RNN(循环神经网络):
特点是比较适合用于序列数据的处理。比如文本和视频,因为这类样本是存在着顺序关系的,也就是一个样本和之前的样本之间有联系。

结构展示:
在这里插入图片描述
其次是CNN(卷积神经网络)

特点:他是一种前馈神经网络,不会和RNN一样形成一个环,而是每个神经元只和前一层的神经元相连,数据从前向后传播,不会产生环
一般是由卷积层,池化层和全连接层组成,一般是用作在图像处理中。这个文章有告诉,为什么适合图像
https://blog.csdn.net/zandaoguang/article/details/104871924
(总的来说就是数据太多,可以有个映射)

结构展示:
在这里插入图片描述
最后是LSTM(长短时记忆)

特点:可以简单理解为一种更加复杂的RNN,在处理时间序列当中间隔和延迟较长时,LSTM比RNN效果更好。 结构展示:

(下面那个是RNN)
在这里插入图片描述
而针对这篇文章,在了解了上面这些知识之后,就可以对于模型有了一个比较基本的了解,那就是使用了encoder-decoder模型,并且在于encoder部分使用的是CNN,而decoder部分使用的是LSTM

在这里插入图片描述
还有些很细节的东西:通过看左边这个image,可以看到,他使用的是GoogLeNet

其次是训练:
细节在于如何消除过拟合化,做一个初始训练模型,例如在ImageNet上等等操作。
再是结果判断
作者采用了数据集的训练评估和基于人手动的评估。
迁移学习,数据大小和标签质量
最明显的是再Flick30k和Flickr8k之间,Flick30k会比另一个好4个BLUE点,所以作者得出在那种情况下,可以通过添加数据来获得收益,但与这个结果相违背的是MSCOCO,因为他有着更多的训练数据,但是由于很多其他因素的干扰,BLUE反而下降。
Generation Diversity Discussion
也就是判断是否可以能产生新颖的描述,captions是否多样性和高质量。
质量高是体系潜在,如果选择最佳的候选,其中80%都是训练集里面的,而只分析产生的前十五的句子的话,有一半是产生新的描述,这也能说明多样性的存在。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值