看图说话——CNN和LSTM的联合应用
看图说话是深度学习波及的领域之一。其基本思想是利用卷积神经网络来做图像的特征提取,利用LSTM来生成描述。但这算是深度学习中热门的两大模型为数不多的联合应用了。
本文是参考文献[1]的笔记,论文是比较早的论文,15年就已经发表了,不新。但还是想写下来它的细节以备后用。
关于CNN(卷积神经网络)和LSTM(长短期记忆网络)的细节,本文不再赘述其细节。读者们需要了解的是:
- 卷积神经网络是一种特别有效的提取图像特征的手段。一个在大数据集如ImageNet上预训练好的模型能够非常有效的提取图像的特征。
- 长短期记忆网络能够处理长短不一的序列式数据,比如语言句子

本文探讨了深度学习中CNN和LSTM的联合应用,用于看图说话任务。通过CNN提取图像特征,LSTM生成描述。文章介绍了网络模型的seq2seq结构,并讨论了训练与预测阶段的差异,以及实验中的效果评价、过拟合避免策略和实验结果。
最低0.47元/天 解锁文章


被折叠的 条评论
为什么被折叠?



