大模型学习路径之多模态模型学习路线分享,很强很全!

前言

(Frankly speaking,博主太懒了)章节一只对CLIP、BLIP、BLIP2、InstructBLIP进行了整理,章节二以CLIP、VisualGLM作为实践案例。

前排提示,文末有大模型AGI-CSDN独家资料包哦!

实际上多模态模型除了CLIP、BLIP、BLIP2、InstructBLIP,还有LLaVA、miniGPT4,以及国内清华的VisualGLM、阿里的Qwen-VL等。


一、多模态模型 & 理论

1. CLIP

图1. CLIP结构

paper: https://arxiv.org/abs/2103.00020

github: https://github.com/openai/CLIP

基本思想: CLIP通过大规模的图像和文本对进行对比学习,学习在特征空间中对齐文本和图像,从而理解图像内容和文本描述之间的关联。

模型结构:

  • 图像编码器:通常使用Vision Transformer (ViT) 或者其他卷积神经网络 (CNN) 如ResNet作为backbone。
  • 文本编码器:通常采用BERT或类似基于Transformer的模型。
  • 特征提取后,图像和文本特征通过归一化处理,然后通过点积计算余弦相似度,使用对比损失(info-NCE loss)进行训练。
2. BLIP

图2. BLIP结构

paper: https://arxiv.org/abs/2201.12086

github: https://github.com/salesforce/BLIP

基本思想: BLIP旨在通过自举方法来提升模型在视觉-语言理解和生成任务上的性能。BLIP还可以通过生成合成图像描述并使用过滤器去除噪声描述,有效地利用了网络上收集的噪声图像-文本对。

模型结构: BLIP模型采用了多模态混合编码器-解码器(Multimodal Mixture of Encoder-Decoder, MED)架构,该架构可以作为单模态编码器、图像引导的文本编码器或图像引导的文本解码器来操作。MED模型通过三种视觉-语言目标进行联合预训练:图像-文本对比学习(image-text contrastive learning)、图像-文本匹配(image-text matching)和图像条件语言建模(image-conditioned language modeling)

  • 图像编码器:使用视觉Transformer(如ViT)作为图像编码器,将输入图像分割成多个小块(patches),并将其编码为一系列嵌入向量,同时使用额外的[CLS]标记来表示整个图像的特征。
  • 文本编码器:采用BERT或类似的基于Transformer的模型作为文本编码器,在文本输入的开始处附加[CLS]标记,以汇总句子的表示。
  • 图像引导的文本编码器:在文本编码器的基础上,通过在自注意力(self-attention)层和前馈网络(feed-forward network)之间插入额外的交叉注意力(cross-attention)层来注入视觉信息。
  • 图像引导的文本解码器:替换了图像引导的文本编码器中的双向自注意力层为因果自注意力层,并使用[Decode]标记来指示序列的开始和结束。
3. BLIP2

图3. BLIP2结构

paper: https://arxiv.org/abs/2301.12597

github: https://github.com/salesforce/LAVIS/tree/main

基本思想: BLIP2 提出了一种通用且高效的预训练策略,利用现成的预训练图像编码器和大型语言模型来引导视觉-语言预训练。BLIP2通过一个轻量级的查询转换器(Q-Former),在两个阶段进行预训练,以弥合模态间的差距。第一阶段从冻结的图像编码器中引导视觉-语言表示学习,第二阶段从冻结的LLM中引导视觉到语言的生成学习。

BLIP2模型结构:

  • Q-Former(Querying Transformer):作为BLIP2中可训练的模块,Q-Former是一个轻量级的Transformer,它使用一组可学习的查询向量从冻结的图像编码器中提取视觉特征。Q-Former由两个Transformer子模块组成,它们共享自注意力层:一个图像Transformer用于与冻结的图像编码器交互,提取视觉特征;一个文本Transformer可以作为文本编码器和解码器,处理文本输入。
  • 冻结的图像编码器:BLIP2使用现成的预训练图像编码器(如ViT-L/14或ViT-g/14)作为视觉特征提取器。这些图像编码器在预训练过程中保持冻结状态,以减少计算成本并避免灾难性遗忘问题。
  • 冻结的大型语言模型(LLMs):BLIP-2利用预训练的大型语言模型(如OPT和FlanT5)进行文本生成。这些语言模型在预训练过程中也保持冻结状态。
  • 两阶段预训练策略:

(1)视觉-语言表示学习:在这一阶段,Q-Former连接到冻结的图像编码器,并使用图像-文本对进行预训练。目标是训练Q-Former,使其能够提取与文本最相关的视觉表示。
(2)视觉到语言的生成学习: 在这一阶段,Q-Former连接到冻结的LLM,以利用LLM的文本生成能力。通过一个全连接层将Q-Former的输出查询嵌入投影到与LLM的文本嵌入相同的维度,然后将这些投影的查询嵌入作为视觉提示附加到输入文本嵌入的前面。

4. InstructBLIP

图4. InstructBLIP结构

paper: https://arxiv.org/abs/2305.06500

github: https://github.com/salesforce/LAVIS/tree/main/projects/instructblip

基本思想:InstructBLIP旨在通过指令调整(instruction tuning)来构建通用的视觉-语言模型,这些模型能够通过统一的自然语言接口解决广泛的视觉-语言任务。InstructBLIP基于预训练的BLIP-2模型,并通过多样化的指令数据集对多模态大型语言模型(LLM)进行训练。该框架使用了一系列公开可用的数据集,覆盖了多种任务和能力,并将它们转换为指令调整格式。InstructBLIP通过指令感知的视觉特征提取机制,使得模型能够灵活并根据给定指令提取信息性特征,从而显著提高了模型在各种视觉-语言任务上的零样本(zero-shot)泛化能力。

模型结构: InstructBLIP的模型结构基于BLIP2,包含以下关键组件。

  • 图像编码器: 使用预训练的图像编码器(如ViT-g/14)来提取图像特征。

  • 大型语言模型: 采用预训练的大型语言模型(如FlanT5或Vicuna),这些模型在指令调整过程中保持冻结状态。

  • 查询转换器(Q-Former): 一个轻量级的Transformer结构,用于从图像编码器中提取视觉特征。Q-Former包含一组可学习的查询嵌入,通过交叉注意力与图像编码器的输出进行交互。

  • 指令感知机制: InstructBLIP提出了一个新颖的指令感知视觉特征提取机制。文本指令不仅提供给冻结的LLM,还提供给Q-Former,使其能够根据给定指令从冻结的图像编码器中提取视觉特征。

  • 平衡采样策略: 为了同步跨数据集的学习进度,InstructBLIP提出了一种平衡采样策略,根据数据集的大小或训练样本数量进行采样。

    InstructBLIP通过这些组件和策略,在多种视觉-语言任务上实现了最先进的零样本性能,并且在个别下游任务的微调上也取得了最先进的性能。


二、多模态实践

1. 以 CLIP 为例
import torch
import clip
from PIL import Image


# (1)配置GPU & 导入model、preprocess
device = "cuda" if torch.cuda.is_available() else "cpu"
model, preprocess = clip.load("ViT-B/32", device=device)

# (2)导入本地image、text
image = preprocess(Image.open("CLIP.png")).unsqueeze(0).to(device)
text = clip.tokenize(["a diagram", "a dog", "a cat"]).to(device)

# (3)通过CLIP的对比学习算出每个text和image的匹配概览
with torch.no_grad():
    image_features = model.encode_image(image)
    text_features = model.encode_text(text)
    
    logits_per_image, logits_per_text = model(image, text)
    probs = logits_per_image.softmax(dim=-1).cpu().numpy()
print("Label probs:", probs)  
# prints: [[0.9927937  0.00421068 0.00299572]]

2. 以 VisualGLM 为例(摘自 HuggingFace 官网:https://huggingface.co/THUDM/visualglm-6b

VisualGLM-6B 是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。

VisualGLM-6B 依靠来自于 CogView 数据集的30M高质量中文图文对,与300M经过筛选的英文图文对进行预训练,中英文权重相同。该训练方式较好地将视觉信息对齐到ChatGLM的语义空间;之后的微调阶段,模型在长视觉问答数据上训练,以生成符合人类偏好的答案。

from transformers import AutoTokenizer, AutoModel


# (1) 导入tokenizer & model
tokenizer = AutoTokenizer.from_pretrained("THUDM/visualglm-6b", trust_remote_code=True)
model = AutoModel.from_pretrained("THUDM/visualglm-6b", trust_remote_code=True).half().cuda()

# (2) 导入图片路径
image_path = "your image path"

# (3) model.chat()
response, history = model.chat(tokenizer, image_path, "描述这张图片。", history=[])
print(response)
response, history = model.chat(tokenizer, image_path, "这张图片可能是在什么场所拍摄的?", history=history)
print(response)



三、多模态应用领域

多模态模型库如下,可用于以下领域:多模态、计算机视觉、自然语言处理、强化学习、表格任务、音频任务、科学计算(蛋白子结构预测、蛋白质序列预测等)、时序技术…

以下四张图分别来自Huggingface(国外ML & DL社区)、Modelscope(阿里旗下的社区)、PaddlePaddle(百度飞桨社区)平台。


总结

章节一整理了Multi-model Large Language Models常用基座和原理,章节二以CLIP、VisualGLM为例对章节一理论进行实践。章节三展示了多模态模型库和在真实业务场景中的一些应用场景。


读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

<think>嗯,用户想了解如何对多模态大模型进行微调的方法教程。首先,我需要回忆一下相关的知识。根据之前提供的引用内容,特别是引用[2]和[3],微调多模态大模型的关键步骤包括数据准备、模型选择、分阶段微调等步骤。用户可能希望得到具体的操作指南,比如数据格式、训练步骤、参数调整等。 首先,我需要明确多模态大模型微调的基本流程。引用[3]提到了准备数据、选择模型、初步微调、进一步微调、评估模型这几个步骤。这应该作为回答的主要结构。同时,引用[2]指出视觉大模型微调的统一性,即不同任务可以通过相同代码完成,这可能是一个优势,需要强调。 接下来,我需要考虑用户可能的实际需求。用户可能希望了解具体的数据格式,比如图像和文本如何配对,是否需要标注数据,还是可以使用弱监督的数据。此外,微调时的冻结参数和解冻策略也很重要,这关系到训练效率和模型效果。引用[3]提到分阶段微调,先冻结大部分参数训练任务头部,再解冻部分进行整体微调,这需要详细说明。 用户可能对代码实现感兴趣,因此提供一个简单的示例代码会更好。例如,使用Hugging Face的Transformers库,加载预训练模型,设置训练参数,进行训练和评估。代码示例需要符合用户的技术水平,不宜过于复杂,但要展示关键步骤。 另外,需要注意微调的优缺点,引用[3]提到需要大量计算资源和数据准备成本,这些是实际应用中可能遇到的挑战,需要提醒用户。同时,引用[1]提到的资料分享可能对用户有帮助,可以建议用户参考提供的教程和资源。 可能还需要考虑用户的应用场景,比如图像分类、检测还是多模态任务,但根据引用[2],这些任务都可以通过统一的流程处理,因此可以强调这一点,让用户了解方法的通用性。 最后,确保回答结构清晰,分步骤说明,结合引用内容,自然添加引用标识。同时,生成的相关问题需要与微调方法相关,比如优化技巧、实战案例、优缺点比较等,帮助用户进一步探索。</think>### 多模态大模型微调方法教程 多模态大模型(如Qwen-VL、CLIP等)的微调方法遵循“预训练-微调”范式,核心是通过特定任务数据调整模型参数,使其适应下游任务。以下是基于技术文档和实践经验总结的微调流程与技术要点[^2][^3]: --- #### **一、微调核心步骤** 1. **数据准备** - **格式要求**:构建图像-文本对(如`(图片路径, 描述文本)`),文本需与任务目标强相关(例如分类标签、检测目标描述等)。 - **数据增强**:对图像进行裁剪、旋转、色彩变换,文本可添加同义词替换或句式调整。 - **示例代码片段**: ```python # 加载多模态数据集示例(以COCO格式为例) from datasets import load_dataset dataset = load_dataset("coco_captions", split="train") ``` 2. **模型选择与配置** - 选择预训练模型(如Qwen-VL、FLAVA),保留其视觉编码器和文本编码器的骨干网络。 - **任务适配层**:根据任务添加头部(如分类器、回归层),例如: ```python # 添加分类头部(PyTorch示例) class MultimodalClassifier(nn.Module): def __init__(self, backbone): super().__init__() self.backbone = backbone self.classifier = nn.Linear(backbone.hidden_size, num_classes) ``` 3. **分阶段微调** - **阶段1(冻结训练)**:冻结预训练模型的90%参数,仅训练任务头部: ```python for param in model.backbone.parameters(): param.requires_grad = False # 冻结骨干网络 ``` - **阶段2(参数微调)**:解冻部分或部参数,以更低学习率(如初始值的1/10)微调整个模型[^3]。 4. **训练配置** - **优化器**:推荐使用AdamW或Lion,学习率设为$5e^{-5}$至$1e^{-4}$。 - **损失函数**:根据任务选择交叉熵(分类)、均方误差(回归)或对比损失(如InfoNCE)。 --- #### **二、关键技术点** 1. **参数高效微调(PEFT)** - 使用LoRA(Low-Rank Adaptation)或Adapter技术,仅训练少量参数。例如LoRA注入低秩矩阵: $$ W' = W + \Delta W = W + BA \quad (B \in \mathbb{R}^{d \times r}, A \in \mathbb{R}^{r \times k}) $$ 其中$r \ll d$,大幅减少训练参数量[^3]。 2. **混合精度训练** - 启用FP16或BF16加速训练,同时需设置梯度缩放: ```python torch.cuda.amp.autocast() scaler.scale(loss).backward() ``` --- #### **三、代码实战示例(基于Hugging Face)** ```python from transformers import AutoProcessor, AutoModelForVision2Seq import torch # 加载预训练模型与处理器 model = AutoModelForVision2Seq.from_pretrained("Qwen/Qwen-VL") processor = AutoProcessor.from_pretrained("Qwen/Qwen-VL") # 准备数据与训练器 from transformers import TrainingArguments, Trainer training_args = TrainingArguments( output_dir="output", per_device_train_batch_size=8, learning_rate=5e-5, num_train_epochs=3, fp16=True # 启用混合精度 ) trainer = Trainer( model=model, args=training_args, train_dataset=train_dataset, data_collator=lambda x: processor(x["images"], x["texts"], padding=True, return_tensors="pt") ) trainer.train() ``` --- #### **四、评估与部署** - **评估指标**:使用任务相关指标(如准确率、BLEU分数),在独立验证集测试。 - **模型导出**:转换为ONNX或TensorRT格式,部署时启用量化(如INT8)提升推理速度[^1]。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值