(四十八):MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase Grounding

本文介绍了一种多模态对齐框架(MAF),用于弱监督短语定位,利用细粒度的视觉和文本表示。在无需短语-对象标注的情况下,通过对比学习来引导视觉和文本表示之间的对齐,从而提高性能。在Flickr30k数据集上,MAF在弱监督和无监督设置中都取得了显著的改进,证明了其有效性和视觉感知语言表示的优势。
摘要由CSDN通过智能技术生成

  • 出处: EMNLP (1) 2020: 2030-2038
  • 代码:https://paperswithcode.com/paper/maf-multimodal-alignment-framework-for-weakly
  • 题目:弱监督阶段接地的多模态对齐框架
  • 主要内容:提出了一种多模态对齐框架(Multimodal Alignment Framework),这是一种具有细粒度视觉和文本表示的短语定位新方法,我们在弱监督设置下训练它,使用对比目标来指导视觉和文本表示之间的对齐。

Abstract

短语定位是研究文本短语到图像区域的映射问题。考虑到在尺度上标注短语到对象数据集的困难,我们开发了多模态对齐框架(MAF)来利用更广泛可用的标题图像数据集,然后可以将其用作一种弱监督形式。

  1. 我们首先通过利用细粒度的视觉表示和视觉感知的语言表示,提出建模短语-对象相关性的算法。
  2. 通过采用对比目标,我们的方法利用标题-图像对中的信息来提高在弱监督场景下的性能。
  3. 在广泛采用的Flickr30k数据集上进行的实验表明,与现有的弱监督方法相比,该方法有显著的改进。
  4. 在视觉感知语言表示的帮助下,我们还可以将之前的最佳非监督结果提高5.56%。我们进行消融研究,以表明我们的
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Laura_Wangzx

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值