论文阅读_Show and Tell: A Neural Image Caption Generator

最新推荐文章于 2022-07-31 22:42:11 发布

HelloBlueRain

最新推荐文章于 2022-07-31 22:42:11 发布

阅读量515

点赞数

分类专栏：机器学习入门

本文链接：https://blog.csdn.net/weixin_40921288/article/details/99247035

版权

机器学习入门专栏收录该内容

5 篇文章

订阅专栏

本文介绍了一种基于深度学习的图像描述生成技术，该技术利用CNN提取图像特征，并结合LSTM生成描述文本，解决了图像理解与语言生成的难题，实现在多个数据集上的优秀表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文内容
- 首先介绍了整个工作，然后提及了其他研究人员的相关工作
- 接着介绍了model的建立，借鉴于机器翻译的发展, 提出了最大化给定图片生成正确描述的概率，用RNN对概率进行建模，基于LSTM生成文本。
- 文中提出的模型NIC，由于研究已经证明，CNN可以从输入图像中充分地提取特征并嵌入到一个定长的向量中，所以用CNN作一个编码器，并且进行预训练，然后将其最后一层隐藏层作为作为RNN的输入。
- 随后介绍实验的评价标准，在数据集上得到的数据结果，对生成的图像结果是否有多样性新颖性判断，各种排名的结果比较。并且有对词嵌入进行分析。
- 最后是总结
内容概括
- 任务：根据给定图像生成相应的文字描述
- 模型：基于深度循环架构的生成式模型
- 结果：在各个数据集效果优秀
细节内容
- 难点：既有视觉分析还有语言模型，要体现出检测出的图像中的物体之间的关系，以前的经验是作为两个子问题处理，而本文中是作为一个整体处理的。
- 参考的机器翻译相关工作：使用一个RNN为encoder输入源语句，然后转换为长度固定的特征向量，紧接着这些向量作为decoder的RNN的初始隐藏层状态。最后使用该RNN来生成target语句。
- NIC模型：在机器翻译中，使用有一个编码RNN、一个解码RNN，这里把编码RNN替换成CNN。也就是说，用CNN作一个编码器，并且在ImageNet上进行预训练，然后将其最后一层隐藏层作为RNN的输入。
- 模型的具体建模
- 使用LSTM进行解码：为了避免RNN的梯度爆炸与弥散问题，LSTM的定义及更新规则，以及训练过程，在此略过。就是之前学习的LSTM的内容
- NIC推理的方法： Sampling方法, 即每次只选择概率最大的值生成单词； BeamSearch方法，每次选择概率最大的k个值
- 防止过拟合：使用预训练权重（ImageNet）来初始化CNN，dropout，集成学习等
- 词嵌入分析
其他相关
- 这篇论文发表与2015年，只是当时的前驱性论文
阅读论文的小结
- 一些没有看懂的内容，可以在看完之后去网上找别人的理解
- 整个论文结构很完整
- 最后的参考文献没有阅读，应当是去阅读的