(四十二):Aligning Linguistic Words and Visual Semantic Units for Image Captioning
- 出处:ACM Multimedia 2019: 765-773
- 代码:https://github.com/ltguo19/VSUA-Captioning
- 主要内容:我们提出用视觉语义单位(VSUs)来填补视觉内容和语言描述之间的信息空白,VSUs是关于对象、它们的属性以及对象与对象之间的交互的视觉组件。
我们利用结构图(语义图和几何图)统一表示,GCNs上下文嵌入VSUs。引入了一种新的上下文门控注意模块,实现了单词和vsu的分级对齐。在MS COCO上的大量实验表明了该方法的优越性。
手写笔记