BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Genera

BLIP是一种新的视觉语言预训练框架,解决了现有模型在理解和生成任务上的局限。它采用多模态混合编码器-解码器(MED)模型,结合图像文本对比学习、匹配和条件语言建模任务。此外,BLIP引入了Captioning and Filtering (CapFilt)方法,通过合成字幕和过滤噪声数据提升预训练质量。BLIP在多个下游任务上表现出色,验证了其方法的有效性。
摘要由CSDN通过智能技术生成

article:Li J, Li D, Xiong C, et al. Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation[C]//International Conference on Machine Learning. PMLR, 2022: 12888-12900.
code:https://github.com/salesforce/BLIP

1 背景知识

1.1 CLIP

image.png
(1)constrastive pre-training
在模型训练过程中,我们取到的每个batch由N 个图像-文本对组成。这N 个图像送入到图像编码器中会得到 N 个图像特征向量 ( I 1 , I 2 , . . . , I N ) (I_1,I_2,...,I_N) (I1,I2,...,IN),同理将这 N 个文本送入到文本编码器中我们可以得到N个文本特征向量 ( T 1 , T 2 , . . . , T N ) (T_1,T_2,...,T_N) (T1,T2,...,TN)。因为只有在对角线上的图像和文本是一对,所以CLIP的训练目标是让是一个图像-文本对的特征向量相似度尽可能高,而不是一对的相似度尽可能低,这里相似度的计算使用的是向量内积,计算文本特征和图像特征的余弦相似性(cosine similarity)。通过这个方式,CLIP构建了一个由 N个正样本和 N 2 − N N^2-N N2

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值