大模型学习路线（7）——多模态模型-CSDN博客

本文链接：https://blog.csdn.net/qq_51175703/article/details/136901379

文章目录

前言

一、多模态模型 & 理论

1. CLIP

2. BLIP

3. BLIP2

4. InstructBLIP

二、多模态实践

1. 以 CLIP 为例

2. 以 VisualGLM 为例

三、多模态应用领域

总结

参考说明

前言

（Frankly speaking，博主太懒了）章节一只对CLIP、BLIP、BLIP2、InstructBLIP进行了整理，章节二以CLIP、VisualGLM作为实践案例。

实际上多模态模型除了CLIP、BLIP、BLIP2、InstructBLIP，还有LLaVA、miniGPT4，以及国内清华的VisualGLM、阿里的Qwen-VL等。（更多多模态原理可以看文末的参考说明）

一、多模态模型 & 理论

1. CLIP

图1. CLIP结构

paper: https://arxiv.org/abs/2103.00020

github: https://github.com/openai/CLIP

基本思想：CLIP通过大规模的图像和文本对进行对比学习，学习在特征空间中对齐文本和图像，从而理解图像内容和文本描述之间的关联。

模型结构：

图像编码器：通常使用Vision Transformer (ViT) 或者其他卷积神经网络 (CNN) 如ResNet作为backbone。
文本编码器：通常采用BERT或类似基于Transformer的模型。
特征提取后，图像和文本特征通过归一化处理，然后通过点积计算余弦相似度，使用对比损失（info-NCE loss）进行训练。

2. BLIP

图2. BLIP结构

paper: https://arxiv.org/abs/2201.12086

github: https://github.com/salesforce/BLIP

基本思想：BLIP旨在通过自举方法来提升模型在视觉-语言理解和生成任务上的性能。BLIP还可以通过生成合成图像描述并使用过滤器去除噪声描述，有效地利用了网络上收集的噪声图像-文本对。

模型结构： BLIP模型采用了多模态混合编码器-解码器（Multimodal Mixture of Encoder-Decoder, MED）架构，该架构可以作为单模态编码器、图像引导的文本编码器或图像引导的文本解码器来操作。MED模型通过三种视觉-语言目标进行联合预训练：图像-文本对比学习（image-text contrastive learning）、图像-文本匹配（image-text matching）和图像条件语言建模（image-conditioned language modeling）。

图像编码器：使用视觉Transformer（如ViT）作为图像编码器，将输入图像分割成多个小块（patches），并将其编码为一系列嵌入向量，同时使用额外的[CLS]标记来表示整个图像的特征。
文本编码器：采用BERT或类似的基于Transformer的模型作为文本编码器，在文本输入的开始处附加[CLS]标记，以汇总句子的表示。
图像引导的文本编码器：在文本编码器的基础上，通过在自注意力（self-attention）层和前馈网络（feed-forward network）之间插入额外的交叉注意力（cross-attention）层来注入视觉信息。
图像引导的文本解码器：替换了图像引导的文本编码器中的双向自注意力层为因果自注意力层，并使用[Decode]标记来指示序列的开始和结束。

3. BLIP2

图3. BLIP2结构

paper: https://arxiv.org/abs/2301.12597

github: https://github.com/salesforce/LAVIS/tree/main

基本思想：BLIP2 提出了一种通用且高效的预训练策略，利用现成的预训练图像编码器和大型语言模型来引导视觉-语言预训练。BLIP2通过一个轻量级的查询转换器（Q-Former），在两个阶段进行预训练，以弥合模态间的差距。第一阶段从冻结的图像编码器中引导视觉-语言表示学习，第二阶段从冻结的LLM中引导视觉到语言的生成学习。

BLIP2模型结构：

Q-Former（Querying Transformer）：作为BLIP2中可训练的模块，Q-Former是一个轻量级的Transformer，它使用一组可学习的查询向量从冻结的图像编码器中提取视觉特征。Q-Former由两个Transformer子模块组成，它们共享自注意力层：一个图像Transformer用于与冻结的图像编码器交互，提取视觉特征；一个文本Transformer可以作为文本编码器和解码器，处理文本输入。
冻结的图像编码器：BLIP2使用现成的预训练图像编码器（如ViT-L/14或ViT-g/14）作为视觉特征提取器。这些图像编码器在预训练过程中保持冻结状态，以减少计算成本并避免灾难性遗忘问题。
冻结的大型语言模型（LLMs）：BLIP-2利用预训练的大型语言模型（如OPT和FlanT5）进行文本生成。这些语言模型在预训练过程中也保持冻结状态。
两阶段预训练策略：

（1）视觉-语言表示学习：在这一阶段，Q-Former连接到冻结的图像编码器，并使用图像-文本对进行预训练。目标是训练Q-Former，使其能够提取与文本最相关的视觉表示。
（2）视觉到语言的生成学习：在这一阶段，Q-Former连接到冻结的LLM，以利用LLM的文本生成能力。通过一个全连接层将Q-Former的输出查询嵌入投影到与LLM的文本嵌入相同的维度，然后将这些投影的查询嵌入作为视觉提示附加到输入文本嵌入的前面。

4. InstructBLIP

图4. InstructBLIP结构

paper: https://arxiv.org/abs/2305.06500

github: https://github.com/salesforce/LAVIS/tree/main/projects/instructblip

基本思想：InstructBLIP旨在通过指令调整（instruction tuning）来构建通用的视觉-语言模型，这些模型能够通过统一的自然语言接口解决广泛的视觉-语言任务。InstructBLIP基于预训练的BLIP-2模型，并通过多样化的指令数据集对多模态大型语言模型（LLM）进行训练。该框架使用了一系列公开可用的数据集，覆盖了多种任务和能力，并将它们转换为指令调整格式。InstructBLIP通过指令感知的视觉特征提取机制，使得模型能够灵活并根据给定指令提取信息性特征，从而显著提高了模型在各种视觉-语言任务上的零样本（zero-shot）泛化能力。

模型结构：InstructBLIP的模型结构基于BLIP2，包含以下关键组件。

图像编码器：使用预训练的图像编码器（如ViT-g/14）来提取图像特征。
大型语言模型：采用预训练的大型语言模型（如FlanT5或Vicuna），这些模型在指令调整过程中保持冻结状态。
查询转换器（Q-Former）：一个轻量级的Transformer结构，用于从图像编码器中提取视觉特征。Q-Former包含一组可学习的查询嵌入，通过交叉注意力与图像编码器的输出进行交互。
指令感知机制：InstructBLIP提出了一个新颖的指令感知视觉特征提取机制。文本指令不仅提供给冻结的LLM，还提供给Q-Former，使其能够根据给定指令从冻结的图像编码器中提取视觉特征。
平衡采样策略：为了同步跨数据集的学习进度，InstructBLIP提出了一种平衡采样策略，根据数据集的大小或训练样本数量进行采样。

InstructBLIP通过这些组件和策略，在多种视觉-语言任务上实现了最先进的零样本性能，并且在个别下游任务的微调上也取得了最先进的性能。

二、多模态实践

1. 以 CLIP 为例

import torch
import clip
from PIL import Image


# （1）配置GPU & 导入model、preprocess
device = "cuda" if torch.cuda.is_available() else "cpu"
model, preprocess = clip.load("ViT-B/32", device=device)

# （2）导入本地image、text
image = preprocess(Image.open("CLIP.png")).unsqueeze(0).to(device)
text = clip.tokenize(["a diagram", "a dog", "a cat"]).to(device)

# （3）通过CLIP的对比学习算出每个text和image的匹配概览
with torch.no_grad():
    image_features = model.encode_image(image)
    text_features = model.encode_text(text)
    
    logits_per_image, logits_per_text = model(image, text)
    probs = logits_per_image.softmax(dim=-1).cpu().numpy()
print("Label probs:", probs)  
# prints: [[0.9927937  0.00421068 0.00299572]]

2. 以 VisualGLM 为例

（摘自 HuggingFace 官网：https://huggingface.co/THUDM/visualglm-6b）

VisualGLM-6B 是一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于 ChatGLM-6B，具有 62 亿参数；图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁，整体模型共78亿参数。

VisualGLM-6B 依靠来自于 CogView 数据集的30M高质量中文图文对，与300M经过筛选的英文图文对进行预训练，中英文权重相同。该训练方式较好地将视觉信息对齐到ChatGLM的语义空间；之后的微调阶段，模型在长视觉问答数据上训练，以生成符合人类偏好的答案。

from transformers import AutoTokenizer, AutoModel


# (1) 导入tokenizer & model
tokenizer = AutoTokenizer.from_pretrained("THUDM/visualglm-6b", trust_remote_code=True)
model = AutoModel.from_pretrained("THUDM/visualglm-6b", trust_remote_code=True).half().cuda()

# (2) 导入图片路径
image_path = "your image path"

# (3) model.chat()
response, history = model.chat(tokenizer, image_path, "描述这张图片。", history=[])
print(response)
response, history = model.chat(tokenizer, image_path, "这张图片可能是在什么场所拍摄的？", history=history)
print(response)