学习视觉和语言的多粒度对齐?字节提出新多模态预训练方法 X-VLM:代码已开源!...

8a5ec604321671548642c7d13db95da9.gif

0d56f8e7ac6131baba4f3d82d3b45d8a.png

写在前面
 

视觉语言预训练提高了许多视觉语言任务的性能。但是,现有的多数预训练方法依赖目标检测器(object detectors)提取基于物体的视觉特征,以此学习细粒度的视觉和语言对齐,例如物体(object)级别。然而,这种方法存在识别视觉概念有限、图像编码上下文信息丢失和计算效率低下的问题。

在本文中,字节跳动人工智能实验室提出了 X-VLM,以统一的方法学习多粒度的视觉和语言对齐,不依赖目标检测方法且不局限于学习图片级别或物体级别的对齐。该方法在广泛的视觉语言任务上获得了最先进的结果,例如:图像文本检索 (image-text retrieval)、视觉问答(VQA)、视觉推理(NLVR)、视觉定位 (visual grounding)、图片描述生成(image captioning)。

bda69421e941347b8b6a6af51fc46f51.png

论文标题:

Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts

论文链接:

https://arxiv.org/abs/2111.08276

代码链接:

https://github.com/zengyan-97/X-VLM

9b58915e0634c1845d40f81a3f3f6ab6.png


研究背景

f4886b82ac8ddc950dcf30c7a439f5ea.png

▲ 图1:现有两类的方法(a, b)和X-VLM(c)

现有的多模态预训练模型大致分为两类:1)依赖目标检测器提取基于物体的视觉特征,以此学习细粒度的视觉和语言对齐,如图 1 中

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值