写下自己的理解。
1 Visual word,上图中的dog,cake就是visual word,也就是detector检测到的物体的词汇。
Text Word,“is on with”就是text word,也就是与视觉没有关系的词汇,“自己生成的吗?”
2 主要贡献——提出一个框架,能够生成(基于检测到的实体的)自然语言。
方法=slot+神经描述方法
3 我们的方法能够产生一些train中没有的新词汇。
4 实现细节
first,检测模型——Faster R-CNN+ResNet-101得到图像的候选区域。
second,区域特征——预训练的ResNet-101
third,语言模型——具有2层LSTM的注意力模型
forth,优化——Adam
fifth,数据集——Flickr30k。使用来Stanford part-of-speech tagger(斯坦福词性标注器),Lemmatization Toolbox(词性还原工具包)
需要理解的东西
Point Network——使用其来调节基于内容的注意力机制。
visual sentinel——《knowing when to look》添加visual sentinel作为潜在变量来为textual word充当一个dummy grounding
Adam——优化
constrained beam search——使模型能够产生“orange”“bird”等