一、概述
1、是什么
BLIP 全称《BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation 》, 是一个多模态视觉-文本大语言模型,隶属BLIP系列第一篇,可以完成:图像描述、视觉问答、图像检索。由于没有接入LLM,所以虽然可以做生成任务,但是没有很强的对话能力以及世界知识。
2、亮点
主要是模型和数据两方面:
*模型方面:把模型设计成了一个unified 框架,可以同时满足:图文检索和图像描述任务。主要有三部分构成:视觉编码器、文本编码器和多模态编码器。
*数据方面:提出了一个Captioner和Filter 模块,Captioner对一张图生成描述(也就是图文对的文)、filter过滤噪声图文对。用这种数据清洗方法就能利用大量的互联网数据,并降低里面的噪音。
PS
*这篇文章的模型方面基本上和albuf类似,数据方面的创新很不错,一定要注意这里没有LLM,只有一阶段训练。
*这篇文章的模型流程因为涉及到数据清洗和下游任务,整体流程是:脏数据训练BLIP->使用BLIP脏数据版应用到CapfFlit 数据清洗流程得到干