LoRA 引领多模态模型革命,大模型的微调方案

本文链接：https://blog.csdn.net/njbaige/article/details/138292342

文章介绍了如何利用LoRA技术对BLIP-2.7B参数的模型进行微调，以增强其图生文能力和视觉语言对齐。通过实例展示了如何在图像描述和视觉问答任务中应用微调后的模型，以及提供的GitHub代码资源以实现模型优化和推理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基于LoRA微调多模态大模型

  

随着 ChatGPT 的火爆，大模型时代降临，普通人难以进行全量微调。

参数高效微调技术应运而生，为科研人员和开发者提供了微调大模型的机会。

用 LoRA 微调 2.7B 参数的 blip2-opt 模型，提升图生文能力，带来高效的视觉语言对齐。

数据集和模型准备

该虚拟数据集提供 6 位足球运动员的图像，附有详细文字说明，可用于微调图像描述模型。
访问数据集：huggingface.co/datasets/ybelkada/football-dataset

由 OPT-2.7B 训练的 BLIP-2 模型，包含三个强大组件：
* 视觉 Transformer：提取图像特征
* 语言模型：生成丰富描述
* 联合嵌入器：关联视觉和语言
此模型已在 Hugging Face 上提供，可通过以下链接下载：/huggingface.co/Salesforce/blip2-opt-2.7b

BLIP-2 简介

BLIP-2 是一种多模态 AI 模型，凭借预训练优势，在视觉和语言任务上表现卓越。
该模型的架构包括一个图像编码器（提取视觉特征），一个大型语言模型（生成语言）和一个可学习的 Q-Former（融合视觉和语言表征）。
BLIP-2 融合了视觉和语言理解，提供强大的多模态能力。它的预训练机制降低了训练成本，提升了模型效果，使其在各种任务中大显身手。

Image Encoder：负责从输入图片中提取视觉特征。
Large Language Model：负责文本生成。
Q-Former巧妙地融合了视觉和语言模态，通过共享自注意力层，Image Transformer 和 Text Transformer两个子模块实现了跨模态交互。这种创新架构有效缩小了两种模态之间的鸿沟，实现了跨模态理解的显著提升。
- 借助图像编码器，Image Transformer 提取视觉特征。可学习 Query 通过自注意力层交互，并通过交叉注意力层与冻结图像特征融合。它还可以通过共享的自注意力层与文本交互，实现图像和文本的深度融合，从而提升图像理解能力。
- Text Transformer兼具文本编码和解码功能，其自注意力层与Image Transformer共享。根据预训练任务的不同，采用不同的自注意力掩码，精准控制Query与文本的交互方式。

BLIP-2 使用了一种两阶段预训练方法，称为 Q-Former，以克服冻结预训练模型导致视觉和语言特征不一致的问题。在表示学习阶段，模型学习对齐视觉和文本特征的表示。接续的生成学习阶段利用这些表示来生成文本描述，从而加强跨模态对齐。

表示学习阶段

Q-Former模型创新性地将冻结的图像编码器连接到学习阶段，利用图像-文本对进行训练。通过优化预训练目标，该模型采用差异化的注意力掩码策略，控制图像和文本 Transformer 之间的交互。这种方法使 Q-Former 能够更有效地捕捉图像和文本之间的联系，从而在学习阶段取得卓越的性能。

生成学习阶段

Q-Former 通过连接到 LLM，利用其语言生成能力。预训练阶段中，全连接层将视觉表示投影到与 LLM 文本嵌入相同的维度，并将其添加到输入文本嵌入中。Q-Former 的预训练使其能够过滤视觉信息，提取与语言相关的关键特征，充当信息瓶颈。这简化了 LLM 学习视觉语言对齐，提高了模型效率。

先预先准备Processor、模型和图像输入。

from PIL import Image
import requests
from transformers import Blip2Processor, Blip2ForConditionalGeneration
import torch

device = "cuda" if torch.cuda.is_available() else "cpu"

processor = Blip2Processor.from_pretrained("Salesforce/blip2-opt-2.7b")
model = Blip2ForConditionalGeneration.from_pretrained(
"Salesforce/blip2-opt-2.7b", load_in_8bit=True, device_map={"": 0}, torch_dtype=torch.float16
) # doctest: +IGNORE_RESULT

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

对于图像描述生成任务示例如下：

inputs = processor(images=image, return_tensors="pt").to(device, torch.float16)

generated_ids = model.generate(**inputs)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0].strip()
print(generated_text)

# two cats laying on a couch

对于视觉问答任务（VQA）示例如下：

prompt = "Question: how many cats are there? Answer:"
inputs = processor(images=image, text=prompt, return_tensors="pt").to(device="cuda", dtype=torch.float16)

generated_ids = model.generate(**inputs)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0].strip()
print(generated_text)
# two

LoRA 简介

LoRA 技术巧妙利用低秩分解模拟模型参数变更，以极少参数量间接训练大模型。详细技术原理和实战教程请参考过往文章。

大模型参数高效微调技术原理综述（五）-LoRA、AdaLoRA、QLoRA
大模型参数高效微调技术实战（五）-LoRA

模型微调

优化代码，改进精度！
我们的微调代码现可从 GitHub 的 llm-action 项目获取，具体位于 blip2_lora_int8_fine_tune.py 文件中。关键步骤包括：
- 将模型精度调整为 8 位整数。
- 微调模型以提升性能。
访问 GitHub 即可获取详细代码并提升您的模型表现。

第一步，加载预训练Blip-2模型以及processor。

from transformers import AutoModelForVision2Seq, AutoProcessor

# We load our model and processor using `transformers`
model = AutoModelForVision2Seq.from_pretrained(pretrain_model_path, load_in_8bit=True)
processor = AutoProcessor.from_pretrained(pretrain_model_path)

通过 LoRA 微调策略创建自定义配置，并利用 get_peft_model 方法扩展基础 Transformer 模型，提升微调性能，量化模型参数，优化模型大小。

from peft import LoraConfig, get_peft_model

# Let's define the LoraConfig
config = LoraConfig(
r=16,
lora_alpha=32,
lora_dropout=0.05,
bias="none",
)

# Get our peft model and print the number of trainable parameters
model = get_peft_model(model, config)
model.print_trainable_parameters()

第三步，进行模型微调。

# 设置优化器
optimizer = torch.optim.AdamW(model.parameters(), lr=5e-5)
device = "cuda" if torch.cuda.is_available() else "cpu"
model.train()
for epoch in range(11):
print("Epoch:", epoch)
for idx, batch in enumerate(train_dataloader):
input_ids = batch.pop("input_ids").to(device)
pixel_values = batch.pop("pixel_values").to(device, torch.float16)

outputs = model(input_ids=input_ids, pixel_values=pixel_values, labels=input_ids)
loss = outputs.loss
print("Loss:", loss.item())
loss.backward()
optimizer.step()
optimizer.zero_grad()

if idx % 10 == 0:
# 根据图像生成文本
generated_output = model.generate(pixel_values=pixel_values)
# 解码
print(processor.batch_decode(generated_output, skip_special_tokens=True))

最后，保存训练的Adapter模型权重及配置文件。

model.save_pretrained(peft_model_id)

模型推理

使用 LLM-Action，轻松实现图生文！
只需运行 CUDA_VISIBLE_DEVICES=0 python blip2_lora_inference.py，即可使用先进的 LLM-Action 模型进行图生文，为您提供准确而有创意的文本描述。
代码详情请访问 GitHub 上的 llm-action 项目，了解 blip2_lora_inference.py 文件中的详细说明。