分享 | 引导语言图像预训练,实现统一的视觉语言理解和生成

本文介绍BLIP,一种新的视觉语言预训练框架,它在理解和生成任务上表现优异。通过多模态混合编码器-解码器(MED)和描述生成与过滤(CapFilt),BLIP在多个视觉语言任务上取得最佳结果,包括图像文本检索、图像描述生成和VQA,并在零样本学习中展现强大泛化能力。
摘要由CSDN通过智能技术生成

视觉语言预训练(VLP)已经提高了许多视觉语言任务的性能。然而,大多数现有的预训练模型只在基于理解的任务或基于生成的任务中表现出色。此外,性能的提高在很大程度上是通过扩大从网络上收集的有噪声的图像-文本对的数据集实现的,而这是一个次优的监督来源。

 

在本文中,我们提出了BLIP,一个新的VLP框架,它可以灵活地兼顾视觉-语言理解和生成任务。BLIP通过自助抽样法有效地利用了带噪声的网络数据,其中一个描述生成器生成了合成的图像描述,一个过滤器去除了带噪声的描述。我们在多个视觉语言任务上取得了最先进的结果,如图像文本检索(平均召回率+2.7%@1)、图像描述生成(CIDEr+2.8%)和VQA(VQA得分+1.6%)。BLIP在零样本学习中也表现出强大的泛化能力。

两个主要限制

模型角度:大多数方法要么采用一个基于编码器的模型或编码器-解码器模型。然而,基于编码器的模型不太容易直接转移到文本生成任务中,而编码器-解码器模型还没有被成功地用于图像-文本检索任务。

数据角度:大多数最先进的方法CLIP,ALBEF,SimVLM)使用从网络上收集的图像-文本对进行预训练。尽管通过扩大数据集获得了性能上的提高,我们的论文显示带噪音的网络文本对于视觉语言学习来说是次优的。

两个贡献

多模态混合编码器-解码器(MED):一个新的的模型架构,用于有效的多任务预训练和灵活的迁移学习。MED可以作为一个单模态编码器,或一个基于图像的文本编码器,或

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值