本地部署Qwen2-VL，并完成多模态对话系统意图识别挑战赛Baseline

最新推荐文章于 2025-04-22 07:53:05 发布

大模型老炮

最新推荐文章于 2025-04-22 07:53:05 发布

阅读量2k

点赞数 12

文章标签：大模型入门人工智能语言模型大模型学习大模型教程大模型

本文链接：https://blog.csdn.net/2401_85375151/article/details/144029114

版权

背景:

最近在学习多模态大模型的相关知识，正好有一个多模态的天池比赛 WWW2025 多模态对话系统意图识别挑战赛这里使用该竞赛数据集作为实践。先在本地跑一遍baseline，出一个基准分数。因为我只有4张A30，所以选择Qwen2-VL-7B-Instruct作为基准模型，使用LLama Factory运行微调代码。

环境安装

这里新开一个conda环境并安装LlamaFactory, 其余缺少的包在运行LLamaFactory时在逐步安装即可。按照官方的推荐环境安装, 如果环境出现问题，可以参考官网的解决方案，相关链接都放在文末的参考中了:

官方推荐环境版本

conda create -n l_factory python==3.11
git clone --depth 1 https://github.com/hiyouga/LLaMA-FactoryA-Factory.git
cd LLaMA-Factory
pip install -e “.[torch,metrics,deepspeed]”

我这里安装完成后是0.9.1.dev0版本，其余重要环境参数如下:

Transformers 4.46.1
Pytorch 2.5.1+cu124
Datasets 3.1.0
Tokenizers 0.20.3

一些环境的问题

gcc版本问题

由于需要单机多卡，我这里使用deepspeed的zero3版本，但是需要gcc版本在8.0以上，这里升级机器的gcc版本,参考如下步骤

升级gcc版本

提示网络问题，需要更换SCL为国内数据源，这里选阿里数据源

参考如下步骤:

更换SCL为阿里源 https://blog.csdn.net/qq_45748758/article/details/132212591

模型下载

在huggingface官网下载模型即可，网络有限制的话可以使用镜像网站HF-Mirror，按照官网的下载方式下载即可，支持断点续传，可以一键下载，很方便。

多模态对话系统意图识别挑战赛

竞赛简介

详情可以参考竞赛主页，简单而言，需要完成对多模态数据(这里是图片及文本)的意图分类。包含对图片的意图分类，及用户对话的意图分类。

数据示例:

输入:

用户: [本处为上图]\n客服: 宝贝，请问有什么可以帮到您的吗？\n用户: 这一套的链接麻烦发下小姐姐\n
输出:
套装推荐

数据下载

在竞赛的数据下载页面下载数据，竞赛的数据详情可以参考竞赛主页。

数据包含1000条的训练数据集，初赛包含10000条的测试数据。

baseline

官方提供了baseline的代码，baseline-git，对训练数据微调，并预测结果且提交。下面采用两种常见的微调方式完成baseline，lora及full微调。

lora微调

配置yaml文件，如下所示:

### model，base model的路径``model_name_or_path: Qwen2-VL-7B-Instruct``   ``### method``stage: sft``do_train: true``finetuning_type: lora``lora_target: all``   ``### dataset``dataset: mire_train  # 这里配置自己的数据集``template: qwen2_vl``cutoff_len: 2048``max_samples: 1000  # 这个参数匹配自己的数据集或设置大点``overwrite_cache: true``preprocessing_num_workers: 16``val_size: 0.1``   ``### output``output_dir: saves/qwen2_vl-7b/lora/sft``logging_steps: 10``save_steps: 50``plot_loss: true``overwrite_output_dir: true``   ``### train``per_device_train_batch_size: 1``gradient_accumulation_steps: 8``learning_rate: 1.0e-4``num_train_epochs: 3.0``lr_scheduler_type: cosine``warmup_ratio: 0.1``bf16: true``ddp_timeout: 180000000``   ``### eval``val_size: 0.1``per_device_eval_batch_size: 1``eval_strategy: steps``eval_steps: 20

运行llama factory的训练脚本

FORCE_TORCHRUN=1 llamafactory-cli train examples/qwen2_vl_lora_sft.yaml

合并lora及基准模型

### model``model_name_or_path: Qwen2-VL-7B-Instruct``adapter_name_or_path: ./saves/qwen2_vl-7b/lora/sft/checkpoint-168  # 上一步保存的路径``template: qwen2_vl``finetuning_type: lora``   ``### export``export_dir: models/qwen2_vl_lora_sft``export_size: 2``export_device: cpu``export_legacy_format: false

llamafactory-cli export merge_config.yaml

使用合并后的模型预测测试集

FORCE_TORCHRUN=1 llamafactory-cli train examples/predict.yaml

最终提交的分数为:

全参数微调

和lora微调方式一样，不过少了一步合并模型，配置如下:

model_name_or_path: Qwen2-VL-7B-Instruct``   ``### method``stage: sft``do_train: true``finetuning_type: full``   ``### dataset``dataset: mire_train  # video: mllm_video_demo``template: qwen2_vl``cutoff_len: 1024``max_samples: 1000``overwrite_cache: true``preprocessing_num_workers: 16``val_size: 0.1``   ``### output``output_dir: saves/qwen2_vl-7b/full/sft``logging_steps: 1``save_steps: 0.2``plot_loss: true``overwrite_output_dir: true``   ``### train``per_device_train_batch_size: 4``gradient_accumulation_steps: 2``learning_rate: 5.0e-6``num_train_epochs: 3.0``lr_scheduler_type: cosine``warmup_ratio: 0.05``fp16: true``ddp_timeout: 180000000``   ``### eval``val_size: 0.1``per_device_eval_batch_size: 8``eval_strategy: steps``eval_steps: 5``   ``flash_attn: fa2``deepspeed: examples/deepspeed/ds_z3_offload_config.json

最终提交的分数为下图，超过了一半的提交者:

遇到的一些错误:

shape mismatch:

训练时一直报这个错误(这个出现在输入有多张图片时)，可能因为在数据向量化时，输入图片过长，导致shape超过了最大长度，可以通过把 cutoff_len 参数调大来解决，但调太大会导致显存不足，尽量调整到刚好够用(每次少调整一些，直至不报错)

outof memory:

在预测时，显存不足

发现每次都是在单卡上完整加载一个模型，在预测多图(这里为超过5张图)的样本时就会显存不足，暂时通过把样本图片量减少，临时解决掉了。如何在多张卡加载一个模型的方案还是未找到，找到我在补充吧。

在训练时，显存不足

使用deepspeed进行训练，

显存不足时，会临时调用cpu和内存进行辅助计算。在全量微调时配置如下参数:

deepspeed: examples/deepspeed/ds_z3_offload_config.json

参考:

LLamaFactory-git https://github.com/hiyouga/LLaMA-Factory/blob/main/README_zh.md
LLamaFactory官方参考文档 https://llamafactory.readthedocs.io/zh-cn/latest/getting_started/installation.html
huggingface-Qwen2-vl https://huggingface.co/Qwen/Qwen2-VL-7B-Instruct

==============================================================================