(四十八):MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase Grounding
- 出处: EMNLP (1) 2020: 2030-2038
- 代码:https://paperswithcode.com/paper/maf-multimodal-alignment-framework-for-weakly
- 题目:弱监督阶段接地的多模态对齐框架
- 主要内容:提出了一种多模态对齐框架(Multimodal Alignment Framework),这是一种具有细粒度视觉和文本表示的短语定位新方法,我们在弱监督设置下训练它,使用对比目标来指导视觉和文本表示之间的对齐。
Abstract
短语定位是研究文本短语到图像区域的映射问题。考虑到在尺度上标注短语到对象数据集的困难,我们开发了多模态对齐框架(MAF)来利用更广泛可用的标题图像数据集,然后可以将其用作一种弱监督形式。
- 我们首先通过利用细粒度的视觉表示和视觉感知的语言表示,提出建模短语-对象相关性的算法。
- 通过采用对比目标,我们的方法利用标题-图像对中的信息来提高在弱监督场景下的性能。
- 在广泛采用的Flickr30k数据集上进行的实验表明,与现有的弱监督方法相比,该方法有显著的改进。
- 在视觉感知语言表示的帮助下,我们还可以将之前的最佳非监督结果提高5.56%。我们进行消融研究,以表明我们的