Qwen2-1.5B-Instruct Lora微调

置顶

十分钟ll

已于 2024-07-29 19:04:15 修改

阅读量3k

点赞数 40

文章标签：深度学习人工智能自然语言处理 pytorch transformer nlp

于 2024-07-24 17:40:18 首次发布

本文链接：https://blog.csdn.net/m0_50972200/article/details/140667653

版权

Qwen2-1.5B-Instruct微调Lora微调

1. 模型下载
2. 准备工作（高手请忽略，没啥用）
3. 接下来进入正题吧（导包）
4. 加载数据
5. 数据预处理
6. 创建模型
7. 配置训练参数
8. 创建训练器
9. 开始训练！！！
10. 完整的.py代码
11. 合并Lora推理预测代码

最近做了一个基于Qwen2-1.5B-Instruct模型的比赛，记录一下自己的微调过程。怕自己以后忘了我就手把手一步一步来记录了。
大多数都是给小白看的，如果你是小白建议你用jupyter运行，按照我这个模块一块一块运行，如果你是高手单纯的想找一个训练代码直接看模块10，我在提供了完整代码。

1. 模型下载

一般模型尽量在modelscope上先搜一下，比较这个下载速度真的快。

import torch
from modelscope import snapshot_download, AutoModel, AutoTokenizer
import os
# 第一个参数表示下载模型的型号，第二个参数是下载后存放的缓存地址，第三个表示版本号，默认 master
model_dir = snapshot_download('Qwen/Qwen2-1.5B-Instruct', cache_dir='./', revision='master')

2. 准备工作（高手请忽略，没啥用）

微调的主要工作其实就是数据处理，其他基本就是个架往里放就行。
接下来是一份官网给出的推理的代码，借助这个代码我们来看输入模型的数据格式长什么样。

from modelscope import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # the device to load the model onto

model = AutoModelForCausalLM.from_pretrained(
    "./Qwen2-1.5B-Instruct",
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("qwen/Qwen2-1.5B-Instruct")

prompt = "你好"
messages = [{
   "role": "system", "content": '你是医疗问答助手章鱼哥，你将帮助用户解答基础的医疗问题。'},
    {
   "role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(device)

generated_ids = model.generate(
    model_inputs.input_ids,
    max_new_tokens=512
)
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

可以打印看看编码后的输入数据长什么样：

'<|im_start|>system\n你是医疗问答助手章鱼哥，你将帮助用户解答基础的医疗问题。<|im_end|>\n<|im_start|>user\n你好<|im_end|>\n<|im_start|>assistant\n'

这里可以看到其实apply_chat_template方法在对函数编码的时候没有给出mask等内容（他这个和智谱轻言的GLM的apply_chat_template就差距很大,在这卡了我半天）所以在数据处理的时候就不能直接用他这个模板。

3. 接下来进入正题吧（导包）

from datasets import Dataset, load_dataset
from transformers import AutoTokenizer, AutoModelForCausalLM, DataCollatorForSeq2Seq, TrainingArguments, Trainer

4. 加载数据

我这里是用了一个医疗问答的csv数据，能了解到这里的应该数据处理不需要细说了吧

dataset = load_dataset("csv", data_files="./问答.csv", split="train")
dataset = dataset.filter(lambda x: x["answer"] is not None)
datasets = dataset.train_test_split(test_size=0.1)

5. 数据预处理

tokenizer = AutoTokenizer.from_pretrained("./Qwen2-1.5B-Instruct", trust_remote_code=True)

def process_func(example):
    MAX_LENGTH = 768   # 最大输入长度，根据你的显存和数据自己调整
    input_ids, attention_mask, labels =