通义千问（Qwen-VL）本地微调

最新推荐文章于 2025-03-23 15:34:47 发布

詹姆斯德

最新推荐文章于 2025-03-23 15:34:47 发布

阅读量8k

点赞数 11

文章标签： python AIGC

本文链接：https://blog.csdn.net/Guet142021/article/details/136623750

版权

进入官网使用模型代码：https://github.com/QwenLM/Qwen-VL/blob/master/README_CN.md

git clone https://github.com/QwenLM/Qwen-VL.git

安装依赖环境：

pip3 install -r requirements.txt
pip3 install -r requirements_openai_api.txt
pip3 install -r requirements_web_demo.txt
pip3 install deepspeed
pip3 install peft
pip3 install optimum
pip3 install auto-gptq

下载模型文件：

在这里可以选择多种下载方式，然后根据自己的显存选择合适的，我是选择最小的Int4的量化模型，但是我参照使用git命令行下载会下载不了不知为何，最后还是自己手动下载到本地

魔搭社区地址魔搭社区

git clone https://www.modelscope.cn/qwen/Qwen-VL-Chat-Int4.git

建议下载完使用ls -ll看看大小是否正确。

数据准备：

官方上给的对话是一次对话给一个框的信息，但是如果一张图有多个框就需要多次对话。经过测试发现对话轮数越多训练时间也越长，并且测试后发现貌似一个id好像仅限6轮对话（不确定），所以需要根据自己的数据进行修改。测试后发现数据格式可以询问一张图片然后回复有多个框的信息，即类似于：

最后即一个id一张图片然后进行一轮对话。要多轮也可以，到时候可以进行修改。

下面是数据集转化的代码，从xml转换为Qwen的格式：

import json
import os
import xml.etree.ElementTree as ET

# 初始化JSON数据结构

all_data=[]


# 指定XML文件所在的目录
xml_directory = '/qwentest/gongfutrain'
i=0
# 遍历目录下的所有XML文件
for filename in os.listdir(xml_directory):

    if filename.endswith('.xml'):
        # 构建完整的文件路径
        file_path = os.path.join(xml_directory, filename)
        i=i+1
        # 解析XML文件
        tree = ET.parse(file_path)
        root = tree.getroot()
        file_name = root.find('filename').text
        json_data = {
            "id": f"identity_{i-1}",
            "conversations": []
        }

        conversation1 = {
            "from": "user",
            "value": f"Picture {i}: <img>/qwentest/gongfutrain/{file_name}</img>\n描述下图片的主要对象以及他们的位置信息"
        }
        json_data['conversations'].append(conversation1)
        conversation = {
            "from": "assistant",
            "value": ""
        }
        for obj_elem in root.findall('object'):
            # 提取必要的数据
            object_name = obj_elem.find('name').text
            bbox = obj_elem.find('bndbox')
            if bbox is not None:  # 确保bndbox元素存在
                xmin = int(bbox.find('xmin').text)
                ymin = int(bbox.find('ymin').text)
                xmax = int(bbox.find('xmax').text)
                ymax = int(bbox.find('ymax').text)
            else:
                # 处理bndbox不存在的情况
                print(f"Warning: No bounding box found in {filename}")
                continue
            a=f'<ref>{object_name}</ref><box>({xmin},{ymin}),({xmax},{ymax})</box>'
            # 创建单个conversation对象并添加到JSON数组中
            if conversation["value"] == "":
                conversation["value"] = a
            else:
                conversation["value"] += " " + a

        json_data['conversations'].append(conversation)

        all_data.append(json_data)


# 将JSON对象转换为字符串并保存到文件中
with open('gongfu.json', 'w', encoding='utf-8') as f:
        json.dump(all_data, f, ensure_ascii=False, indent=2)

print("转换完成，所有XML文件的数据已整合到json文件中。")

微调：

因为资源有限，使用QLora形式。修改finetune/finetune_qlora_single_gpu.sh中的一些设置，其中主要修改标红部分，其他参数自己设当调整。

运行代码开始微调。

sh finetune/finetune_qlora_single_gpu.sh

Q-lora不支持合并，可以按照以下方法使用，默认保存路径是output_qwen。如果用的lora可以看官方文档如何合并。

from peft import AutoPeftModelForCausalLM

model = AutoPeftModelForCausalLM.from_pretrained(
    path_to_adapter, # path to the output directory
    device_map="auto",
    trust_remote_code=True
).eval()

训练完成后可以使用官方的测试demo进行测试，主要修改一下模型的加载路径即可