大模型学习笔记------BLIP模型解读与思考
CLIP(Contrastive Language-Image Pretraining)和 BLIP(Bootstrapping Language-Image Pretraining)都是将视觉和语言信息结合的模型。但它们侧重的任务和方法有所不同。BLIP的出现可以看作是对CLIP的一种扩展和改进。
1、BLIP与CLIP的主要不同之处
在上两篇文章中讲到了CLIP模型的主要应用与一些思考,本文的BLIP模型对CLIP模型的一个增强版本,能够更好地处理复杂的视觉和语言结合的任务,推动了多模态学习的发展。我认为比较重要的不同主要体现在如下两个方面:
- 任务多样性:CLIP主要用于图像和文本的对齐问题,比如分类或是图文搜索;而BLIP除了完成以上任务,还旨在解决包括图像生成、视觉问答和图像描述等更复杂的任务,它通过引入更丰富的训练任务来提升性能。
- 训练方式:CLIP采用“对比学习”的方式学习图像与文本的相似度。BLIP采用了“引导学习”的方式,通过自监督的方式来增强模型对语言和视觉信息的理解,这种方式使得模型能够更好地捕捉图像和文本之间的关系。
在论文中,作者提出了视觉语言训练 (Vision-Language Pre-training, VLP) 现有方法的主要限制:
- 模型层面: