论文阅读_Show and Tell: A Neural Image Caption Generator

  • 论文内容

    • 首先介绍了整个工作,然后提及了其他研究人员的相关工作
    • 接着介绍了model的建立,借鉴于机器翻译的发展, 提出了最大化给定图片生成正确描述的概率,用RNN对概率进行建模,基于LSTM生成文本。
    • 文中提出的模型NIC,由于研究已经证明,CNN可以从输入图像中充分地提取特征并嵌入到一个定长的向量中,所以用CNN作一个编码器,并且进行预训练,然后将其最后一层隐藏层作为作为RNN的输入。
    • 随后介绍实验的评价标准,在数据集上得到的数据结果,对生成的图像结果是否有多样性新颖性判断,各种排名的结果比较。并且有对词嵌入进行分析。
    • 最后是总结
  • 内容概括

    • 任务:根据给定图像生成相应的文字描述
    • 模型:基于深度循环架构的生成式模型
    • 结果:在各个数据集效果优秀
  • 细节内容

    • 难点:既有视觉分析还有语言模型,要体现出检测出的图像中的物体之间的关系,以前的经验是作为两个子问题处理,而本文中是作为一个整体处理的。
    • 参考的机器翻译相关工作:使用一个RNN为encoder输入源语句,然后转换为长度固定的特征向量,紧接着这些向量作为decoder的RNN的初始隐藏层状态。最后使用该RNN来生成target语句。
    • NIC模型:在机器翻译中,使用有一个编码RNN、一个解码RNN,这里把编码RNN替换成CNN。也就是说,用CNN作一个编码器,并且在ImageNet上进行预训练,然后将其最后一层隐藏层作为RNN的输入。
    • 模型的具体建模
    • 使用LSTM进行解码:为了避免RNN的梯度爆炸与弥散问题,LSTM的定义及更新规则,以及训练过程,在此略过。就是之前学习的LSTM的内容
    • NIC推理的方法: Sampling方法, 即每次只选择概率最大的值生成单词; BeamSearch方法, 每次选择概率最大的k个值
    • 防止过拟合:使用预训练权重(ImageNet)来初始化CNN,dropout,集成学习等
    • 词嵌入分析
  • 其他相关

    • 这篇论文发表与2015年,只是当时的前驱性论文
  • 阅读论文的小结

    • 一些没有看懂的内容,可以在看完之后去网上找别人的理解
    • 整个论文结构很完整
    • 最后的参考文献没有阅读,应当是去阅读的
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值