Image Captioning with Semantic Attention具有语义注意的图像标题学习笔记
1主要贡献:
本文的主要贡献是一种新的图像字幕算法,该算法基于一种新颖的语义注意模型。我们的注意模型自然地将复杂神经网络框架中的自上而下和自下而上方法中的视觉信息结合起来。与最先进的方法相比,我们的算法可以显着提高性能。
2论文模型:
首先从图像中提取自上而下和自下而上的特征,利用cnn来进行特征提取,构建由v表示的全局视觉描述,还运行一组属性检测器(属性检查器 是我们查看并编辑当前选中节点和组件属性的工作区域。就会在 属性检查器 中显示该节点的属性和节点上所有组件的属性以供您查询和编辑)来获取最有可能出现在图像中的可视属性或概念{}的列表,每个属性ai对应于我们的词汇集或字典Y中的条目,我们根据ai去描绘他的特征。
然后这些特征都被输入回归神经网络(RNN)以生成标题
图:提议的图像字幕系统的框架。将CNN响应v和属性检测的视觉特征注入RNN(虚线箭头)并通过反回路(蓝色箭头)融合在一起。输入模型和输出模型φ都强制关注属性。
与以前的图像字幕方法不同,我们的模型有一种独特的方式来利用和组合不同的视觉信息源。CNN图像特征v仅用于初始输入节点,其预期为RNN提供图像内容的快速概览。一旦初始化RNN状态以包含整体视觉上下文&#x