多模态大模型（3）--BLIP-2

最新推荐文章于 2025-03-12 08:58:08 发布

阿牛牛阿

最新推荐文章于 2025-03-12 08:58:08 发布

阅读量1.3k

点赞数 33

分类专栏：前沿技术--大模型文章标签：算法 AIGC 人工智能 python 语言模型

本文链接：https://blog.csdn.net/burstone/article/details/143897958

版权

前沿技术--大模型专栏收录该内容

16 篇文章

订阅专栏

大模型如火如荼，研究者们已经不再满足于基本文本的大语言模型（LLM, Large Language Model），AI领域的热点正逐步向多模态转移，具备多模态能力的多模态大型语言模型（MM（Multi-Modal）-LLM）就成了一个备受关注的研究主题。在BLIP算法的基础上，Salesforce提出的多模态预训练模型BLIP-2（Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models），是BLIP系列的第二篇研究论文，通过有效利用现有的预训练图像编码器和大型语言模型来降低视觉-语言预训练模型的成本和计算需求。

框架

BLIP-2为多模态任务的研究提供了新的思路和方法，预训练策略实现了在降低训练成本的同时提高性能，整体使用如下的结构（虚线框对应两个阶段：表示学习与生成学习）：
● 图像编码器：图像作为输入，输出图像的视觉特征。
● Q-Former：接收文本和图像的视觉特征，结合查询向量进行融合，学习与文本相近的视觉特征，输出LLM能够理解的视觉表示。
● 大语言模型LLM：接收Q-Former输出的视觉表示，生成对应的文本。
在这里插入图片描述

模型

在这里插入图片描述

冻结预训练模型：BLIP-2在预训练阶段冻结了预训练的图像编码器和大型语言模型（LLM），以减少计算量并防止灾难性遗忘问题。
两阶段预训练：
○ 第一阶段：从冻结的图像编码器中引导视觉-语言表征学习。
○ 第二阶段：基于冻结的语言模型，进行视觉到语言的生成学习。
Querying Transformer（Q-Former）：BLIP-2引入了一个轻量级的Q-Former来弥合冻结的图像编码器和LLM之间的模态差距。Q-Former通过两阶段预训练策略进行预训练，以桥接视觉特征和文本特征。这个过程中引入了三个优化目标
a. 图像-文本的匹配：通过图像与对应描述词的pair对进行有监督的二分类训练，实现任务相关的训练
b. 基于图像的文本生成：图像与文本的预训练冻结，所以将当前输入query作attention之后的图像与文本进行交互学习
c. 图像与文本的对比学习：学习两种模态的对齐
视觉-语言任务的性能：BLIP-2在多种视觉-语言任务上达到了最先进的性能（SOTA），例如在zero-shot VQAv2上超越了Flamingo80B 8.7%，同时显著减少了可训练参数的数量。
零样本图像到文本生成：BLIP-2可以根据自然语言指令进行零样本图像到文本的生成能力。

小结

BLIP-2的特点可以归纳如下：
（1）使用预训练并冻结模型，以减少端到端的大模型训练时的运算量（FLOPS）
（2）预训练的模型冻结，通过引入可训练的Q-Former实现图像与文本的对齐学习
（3）基于图像的文本生成模块，使得BLIP-2具备好的zero-shot图像生成文本能力
最后，附BLIP-2的原文：https://arxiv.org/pdf/2301.12597，感兴趣的读者可以深入阅读。