视觉语言预训练(VLP)已经提高了许多视觉语言任务的性能。然而,大多数现有的预训练模型只在基于理解的任务或基于生成的任务中表现出色。此外,性能的提高在很大程度上是通过扩大从网络上收集的有噪声的图像-文本对的数据集实现的,而这是一个次优的监督来源。
在本文中,我们提出了BLIP,一个新的VLP框架,它可以灵活地兼顾视觉-语言理解和生成任务。BLIP通过自助抽样法有效地利用了带噪声的网络数据,其中一个描述生成器生成了合成的图像描述,一个过滤器去除了带噪声的描述。我们在多个视觉语言任务上取得了最先进的结果,如图像文本检索(平均召回率+2.7%@1)、图像描述生成(CIDEr+2.8%)和VQA(VQA得分+1.6%)。BLIP在零样本学习中也表现出强大的泛化能力。
两个主要限制
模型角度:大多数方法要么采用一个基于编码器的模型或编码器-解码器模型。然而,基于编码器的模型不太容易直接转移到文本生成任务中,而编码器-解码器模型还没有被成功地用于图像-文本检索任务。
数据角度:大多数最先进的方法CLIP,ALBEF,SimVLM)使用从网络上收集的图像-文本对进行预训练。尽管通过扩大数据集获得了性能上的提高,我们的论文显示带噪音的网络文本对于视觉语言学习来说是次优的。
两个贡献
多模态混合编码器-解码器(MED):一个新的的模型架构,用于有效的多任务预训练和灵活的迁移学习。MED可以作为一个单模态编码器,或一个基于图像的文本编码器,或