【论文笔记】Show and Tell: Lesson learned from the 2015 MSCOCO Image Captioning Challenge

最新推荐文章于 2024-08-12 08:25:41 发布

Issac_33

最新推荐文章于 2024-08-12 08:25:41 发布

阅读量2.2k

点赞数 1

分类专栏： papers 文章标签：谷歌 NIC deep-learning LSTM

本文链接：https://blog.csdn.net/qq_35647180/article/details/61921782

版权

本文对比了NIC模型与NeuralTalk在图像描述任务上的差异。NIC模型采用更好的GoogLeNet特征提取器和增强的LSTM解码器，使用预训练的CNN模型并固定，仅训练LSTM，以减少过拟合。此外，通过ensemble预测、dropout和beam search等技术提高模型性能。尽管更大的训练集能缓解过拟合，但寻找更通用的解决方案至关重要。

摘要由CSDN通过智能技术生成

AK在其开源的neuraltalk和neuraltalk2项目中和此模型进行比较其相似之处，并承认说“but the Google release should work significantly better as a result of better CNN, some tricks, and more careful engineering.“那今天就以此出发，比较一下NIC(Neural Image Caption)模型有什么好的。
项目代码：im2txt。

总体来看，二者并无很大差异，都是end to end，CNN提取特镇，RNN生成语句。而区别都体现在细微之处：

1、NIC从sequence to sequence的machine translation方法中学来了一个洋气的名字叫encoder-decoder模型，encoder是CNN，decoder是RNN。重点在于，这里用的CNN和RNN都和NeuralTalk有很大不同。NIC模型使用了更好的feature extractor–GoogLenet(2015),BatchNorm(2016), 使得获得的图像信息更丰富了；使用了更复杂的LSTM，并在2016年增加了层数和cell数，使得decoder更复杂了，也取得了更好的效果。

2、feature输入方式。NeuralTalk中提取完特征将其作为bias结合其他输入一起，直接输入到了RNN的第一个cell中，感觉有些草率；而NIC将第一个时刻完全留给了feature输入，并不做预测，有种预热的意思。文中还提到，作者经验证实了每次都输入图片不好，所以只在开始输入了一次。