【论文笔记】Show and Tell: Lesson learned from the 2015 MSCOCO Image Captioning Challenge

本文对比了NIC模型与NeuralTalk在图像描述任务上的差异。NIC模型采用更好的GoogLeNet特征提取器和增强的LSTM解码器,使用预训练的CNN模型并固定,仅训练LSTM,以减少过拟合。此外,通过ensemble预测、dropout和beam search等技术提高模型性能。尽管更大的训练集能缓解过拟合,但寻找更通用的解决方案至关重要。
摘要由CSDN通过智能技术生成

AK在其开源的neuraltalk和neuraltalk2项目中和此模型进行比较其相似之处,并承认说“but the Google release should work significantly better as a result of better CNN, some tricks, and more careful engineering.“那今天就以此出发,比较一下NIC(Neural Image Caption)模型有什么好的。
项目代码:im2txt。

总体来看,二者并无很大差异,都是end to end,CNN提取特镇,RNN生成语句。而区别都体现在细微之处:

1、NIC从sequence to sequence的machine translation方法中学来了一个洋气的名字叫encoder-decoder模型,encoder是CNN,decoder是RNN。重点在于,这里用的CNN和RNN都和NeuralTalk有很大不同。NIC模型使用了更好的feature extractor–GoogLenet(2015),BatchNorm(2016), 使得获得的图像信息更丰富了;使用了更复杂的LSTM,并在2016年增加了层数和cell数,使得decoder更复杂了,也取得了更好的效果。

2、feature输入方式。NeuralTalk中提取完特征将其作为bias结合其他输入一起,直接输入到了RNN的第一个cell中,感觉有些草率;而NIC将第一个时刻完全留给了feature输入,并不做预测,有种预热的意思。文中还提到,作者经验证实了每次都输入图片不好,所以只在开始输入了一次。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值