-
论文内容
- 首先介绍了整个工作,然后提及了其他研究人员的相关工作
- 接着介绍了model的建立,借鉴于机器翻译的发展, 提出了最大化给定图片生成正确描述的概率,用RNN对概率进行建模,基于LSTM生成文本。
- 文中提出的模型NIC,由于研究已经证明,CNN可以从输入图像中充分地提取特征并嵌入到一个定长的向量中,所以用CNN作一个编码器,并且进行预训练,然后将其最后一层隐藏层作为作为RNN的输入。
- 随后介绍实验的评价标准,在数据集上得到的数据结果,对生成的图像结果是否有多样性新颖性判断,各种排名的结果比较。并且有对词嵌入进行分析。
- 最后是总结
-
内容概括
- 任务:根据给定图像生成相应的文字描述
- 模型:基于深度循环架构的生成式模型
- 结果:在各个数据集效果优秀
-
细节内容
- 难点:既有视觉分析还有语言模型,要体现出检测出的图像中的物体之间的关系,以前的经验是作为两个子问题处理,而本文中是作为一个整体处理的。
- 参考的机器翻译相关工作:使用一个RNN为encoder输入源语句,然后转换为长度固定的特征向量,紧接着这些向量作为decoder的RNN的初始隐藏层状态。最后使用该RNN来生成target语句。
- NIC模型:在机器翻译中,使用有一个编码RNN、一个解码RNN,这里把编码RNN替换成CNN。也就是说,用CNN作一个编码器,并且在ImageNet上进行预训练,然后将其最后一层隐藏层作为RNN的输入。
- 模型的具体建模
- 使用LSTM进行解码:为了避免RNN的梯度爆炸与弥散问题,LSTM的定义及更新规则,以及训练过程,在此略过。就是之前学习的LSTM的内容
- NIC推理的方法: Sampling方法, 即每次只选择概率最大的值生成单词; BeamSearch方法, 每次选择概率最大的k个值
- 防止过拟合:使用预训练权重(ImageNet)来初始化CNN,dropout,集成学习等
- 词嵌入分析
-
其他相关
- 这篇论文发表与2015年,只是当时的前驱性论文
-
阅读论文的小结
- 一些没有看懂的内容,可以在看完之后去网上找别人的理解
- 整个论文结构很完整
- 最后的参考文献没有阅读,应当是去阅读的
论文阅读_Show and Tell: A Neural Image Caption Generator
最新推荐文章于 2023-01-02 17:26:03 发布