BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Genera

最新推荐文章于 2025-02-12 14:10:26 发布

游不动的鱼-learning

最新推荐文章于 2025-02-12 14:10:26 发布

阅读量836

点赞数 1

文章标签：深度学习机器学习计算机视觉

本文链接：https://blog.csdn.net/KeepLearning1/article/details/130071435

版权

BLIP是一种新的视觉语言预训练框架，解决了现有模型在理解和生成任务上的局限。它采用多模态混合编码器-解码器（MED）模型，结合图像文本对比学习、匹配和条件语言建模任务。此外，BLIP引入了Captioning and Filtering (CapFilt)方法，通过合成字幕和过滤噪声数据提升预训练质量。BLIP在多个下游任务上表现出色，验证了其方法的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

article：Li J, Li D, Xiong C, et al. Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation[C]//International Conference on Machine Learning. PMLR, 2022: 12888-12900.
code：https://github.com/salesforce/BLIP

1 背景知识

1.1 CLIP

（1）constrastive pre-training
在模型训练过程中，我们取到的每个batch由N 个图像-文本对组成。这N 个图像送入到图像编码器中会得到 N 个图像特征向量 $I_1,I_2,...,I_N)$ ，同理将这 N 个文本送入到文本编码器中我们可以得到N个文本特征向量 $T_1,T_2,...,T_N)$ 。因为只有在对角线上的图像和文本是一对，所以CLIP的训练目标是让是一个图像-文本对的特征向量相似度尽可能高，而不是一对的相似度尽可能低，这里相似度的计算使用的是向量内积，计算文本特征和图像特征的余弦相似性（cosine similarity）。通过这个方式，CLIP构建了一个由 N个正样本和 $N^2-N$

最低0.47元/天解锁文章