多模态大模型(3)--BLIP-2

大模型如火如荼,研究者们已经不再满足于基本文本的大语言模型(LLM, Large Language Model),AI领域的热点正逐步向多模态转移,具备多模态能力的多模态大型语言模型(MM(Multi-Modal)-LLM)就成了一个备受关注的研究主题。在BLIP算法的基础上,Salesforce提出的多模态预训练模型BLIP-2(Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models),是BLIP系列的第二篇研究论文,通过有效利用现有的预训练图像编码器和大型语言模型来降低视觉-语言预训练模型的成本和计算需求。

框架

BLIP-2为多模态任务的研究提供了新的思路和方法,预训练策略实现了在降低训练成本的同时提高性能,整体使用如下的结构(虚线框对应两个阶段:表示学习与生成学习):
● 图像编码器:图像作为输入,输出图像的视觉特征。
● Q-Former:接收文本和图像的视觉特征,结合查询向量进行融合,学习与文本相近的视觉特征,输出LLM能够理解的视觉表示。
● 大语言模型LLM:接收Q-Former输出的视觉表示,生成对应的文本。
在这里插入图片描述

模型

在这里插入图片描述

  1. 冻结预训练模型:BLIP-2在预训练阶段冻结了预训练的图像编码器和大型语言模型(LLM),以减少计算量并防止灾难性遗忘问题。
  2. 两阶段预训练:
    ○ 第一阶段:从冻结的图像编码器中引导视觉-语言表征学习。
    ○ 第二阶段:基于冻结的语言模型,进行视觉到语言的生成学习。
  3. Querying Transformer(Q-Former):BLIP-2引入了一个轻量级的Q-Former来弥合冻结的图像编码器和LLM之间的模态差距。Q-Former通过两阶段预训练策略进行预训练,以桥接视觉特征和文本特征。这个过程中引入了三个优化目标
    a. 图像-文本的匹配:通过图像与对应描述词的pair对进行有监督的二分类训练,实现任务相关的训练
    b. 基于图像的文本生成:图像与文本的预训练冻结,所以将当前输入query作attention之后的图像与文本进行交互学习
    c. 图像与文本的对比学习:学习两种模态的对齐
  4. 视觉-语言任务的性能:BLIP-2在多种视觉-语言任务上达到了最先进的性能(SOTA),例如在zero-shot VQAv2上超越了Flamingo80B 8.7%,同时显著减少了可训练参数的数量。
  5. 零样本图像到文本生成:BLIP-2可以根据自然语言指令进行零样本图像到文本的生成能力。

小结

BLIP-2的特点可以归纳如下:
(1)使用预训练并冻结模型,以减少端到端的大模型训练时的运算量(FLOPS)
(2)预训练的模型冻结,通过引入可训练的Q-Former实现图像与文本的对齐学习
(3)基于图像的文本生成模块,使得BLIP-2具备好的zero-shot图像生成文本能力
最后,附BLIP-2的原文:https://arxiv.org/pdf/2301.12597,感兴趣的读者可以深入阅读。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值