实操指南 | Qwen3 大模型微调入门实践全流程(附完整代码)

阿里通义实验室近期开源的大语言模型Qwen3,甫一发布便荣登开源LLM榜单首位。与此同时,Qwen系列模型超越LLaMA,一跃成为开源模型社区里最受青睐的开源LLM

无论用于研究学习,还是落地应用,Qwen正逐步成为开发者的最佳选择之一
img
那么,以Qwen3作为基座大模型,通过全参数微调的方式,实现垂直专业领域聊天,甚至支持DeepSeek R1 / QwQ式的带推理过程的对话,是学习LLM微调的入门任务。

在本文中,我们会使用 Qwen3-1.7b 模型在delicate_medical_r1_data 数据集上做全参数微调训练,实现让微调后的 Qwen3 支持对医学问题进行DeepSeek R1式的推理回复。训练中用到了transformers、datasets等工具,同时使用SwanLab监控训练过程、评估模型效果。

1、知识点:什么是全参数微调?

大模型全参数微调,是对预训练大模型的全部参数实施更新优化,与部分参数微调、LoRA 微调存在明显差异。

该方法借助在下游任务数据上执行梯度反向传播,对模型的底层词嵌入、中间特征提取层、顶层任务适配层等所有权重进行调整,促使模型全面贴合新任务要求。相较于仅微调部分参数,全参数微调能够更高效地发挥预训练模型的泛化特性,实现对特定任务的深度适配,尤其适用于数据差异显著、任务复杂度高的应用场景。
img

不过,全参数微调往往需要更高的计算资源和存储开销,且存在过拟合风险(尤其在小数据集上)。实际应用中常结合学习率调整、参数分组优化或正则化技术来缓解这些问题。

全参数微调多用于对模型表现性能要求较高的场景,例如专业领域知识问答或高精度文本生成。

下面是实战正片。

2、实战阶段

2.1、环境安装

本案例基于Python>=3.8,请在您的计算机上安装好Python;

另外,您的计算机上至少要有一张英伟达/昇腾显卡(显存要求大概32GB左右可以跑)。

我们需要安装以下这几个Python库,在这之前,请确保你的环境内已安装了pytorch以及CUDA:

swanlab

modelscope==1.22.0

transformers>=4.50.0

datasets==3.2.0

accelerate

pandas

addict

一键安装命令:

pip install swanlab modelscope==1.22.0 "transformers>=4.50.0" datasets==3.2.0 accelerate pandas addict
2.2、 准备数据集

本案例使用的是 delicate_medical_r1_data 数据集,该数据集主要被用于医学对话模型。

该数据集由2000多条数据组成,每条数据包含Instruction、question、think、answer、metrics五列:

img

这里我们只取question、think、answer这三列:

  • question:用户提出的问题,即模型的输入
  • think:模型的思考过程。大家如果用过DeepSeek R1的话,回复中最开始的思考过程就是这个
  • answer:模型思考完成后,回复的内容

我们的训练任务,便是希望微调后的大模型,能够根据question,给用户一个think+answer的组合回复,并且thinkanswer在网页上的展示有区分。

理清需求后,我们设计这样一个数据集样例:

{
“question”: “我父亲刚刚被诊断为活动性出血,医生说需要立即处理,我们该怎么做?”,
“think”: “嗯,用户的问题是关于病人出现活动性出血时应采取哪些一般处理措施,...”,
“answer”: “首先,您父亲需要卧床休息,活动性出血期间暂时不要进食。为了...”,
}

在训练代码执行时,会将thinkanswer按下面这样的格式组合成一条完整回复:

<think>
嗯,用户的问题是关于病人出现活动性出血时应采取哪些一般处理措施,...
</think>

首先,您父亲需要卧床休息,活动性出血期间暂时不要进食。为了...

接下来我们来下载数据集,并进行必要的格式转换。

这个流程非常简单,执行下面的代码即可:

from modelscope.msdatasets import MsDataset
import json
import random

random.seed(42)

ds = MsDataset.load('krisfu/delicate_medical_r1_data', subset_name='default', split='train')
data_list = list(ds)
random.shuffle(data_list)

split_idx = int(len(data_list) * 0.9)

train_data = data_list[:split_idx]
val_data = data_list[split_idx:]

with open('train.jsonl', 'w', encoding='utf-8') as f:
    for item in train_data:   
         json.dump(item, f, ensure_ascii=False)        
         f.write('\n')

with open('val.jsonl', 'w', encoding='utf-8') as f: 
   for item in val_data:   
        json.dump(item, f, ensure_ascii=False)        
        f.write('\n')

print(f"The dataset has been split successfully.")
print(f"Train Set Size:{len(train_data)}")
print(f"Val Set Size:{len(val_data)}")

完成后,你的代码目录下会出现训练集 train.jsonl 和验证集 val.jsonl 文件。

至此,数据集部分完成。

2.3、 加载模型

这里我们使用modelscope下载Qwen3-1.7B模型(modelscope在国内,所以下载不用担心速度和稳定性问题),然后把它加载到Transformers中进行训练:

from modelscope import snapshot_download, AutoTokenizer
from transformers import AutoModelForCausalLM, TrainingArguments, Trainer, DataCollatorForSeq2Seq

# 在modelscope上下载Qwen模型到本地目录下
model_dir = snapshot_download("Qwen/Qwen3-1.7B", cache_dir="./", revision="master")

# Transformers加载模型权重
tokenizer = AutoTokenizer.from_pretrained("./Qwen/Qwen3-1.7B", use_fast=False, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("./Qwen/Qwen3-1.7B", device_map="auto", torch_dtype=torch.bfloat16)
2.4、配置训练记录工具

我们使用SwanLab来监控整个训练过程,并评估最终的模型效果。

SwanLab 是一款开源、轻量的 AI 模型训练跟踪与可视化工具,面向人工智能与深度学习开发者,提供了一个跟踪、记录、比较、和协作实验的平台,常被称为"中国版 Weights & Biases + Tensorboard"。SwanLab同时支持云端和离线使用,并适配了从PyTorch、Transformers、Lightning再到LLaMA Factory、veRL等30+ AI训练框架。

img

img

这里直接使用SwanLab和Transformers的集成来实现,更多用法可以参考官方文档:

from transformers import TrainingArguments, Trainer

args = TrainingArguments(  
  ...,    
  report_to="swanlab",    
  run_name="qwen3-1.7B",
)

trainer = Trainer(..., args=args)

如果你是第一次使用SwanLab,那么还需要去https://swanlab.cn上注册一个账号,在用户设置页面复制你的API Key,然后在训练开始时,选择【2】,然后粘贴进去即可:

img

2.5、 完整代码

开始训练时的目录结构:

|— train.py

|— train.jsonl

|— val.jsonl

train.py:

import json
import pandas as pd
import torch
from datasets import Dataset
from modelscope import snapshot_download, AutoTokenizer
from transformers import AutoModelForCausalLM, TrainingArguments, Trainer, DataCollatorForSeq2Seq
import os
import swanlab

os.environ["SWANLAB_PROJECT"]="qwen3-sft-medical"
PROMPT = "你是一个医学专家,你需要根据用户的问题,给出带有思考的回答。
"MAX_LENGTH = 2048
swanlab.config.update({
    "model": "Qwen/Qwen3-1.7B",    
    "prompt": PROMPT,    
    "data_max_length": MAX_LENGTH, 
   })

def dataset_jsonl_transfer(origin_path, new_path):  
  """    
  将原始数据集转换为大模型微调所需数据格式的新数据集    
  """    
  messages = []    
  # 读取旧的JSONL文件    
  with open(origin_path, "r") as file:   
       for line in file:           
        # 解析每一行的json数据            
        data = json.loads(line)           
         input = data["question"]            
         output = f"<think>{data["think"]}</think> \n {data["answer"]}"            
         message = {       
                  "instruction": PROMPT,                
                  "input": f"{input}",                
                  "output": output,           
 }         
    messages.append(message)   
     # 保存重构后的JSONL文件    
     with open(new_path, "w", encoding="utf-8") as file:  
           for message in messages:        
               file.write(json.dumps(message, ensure_ascii=False) + "\n")

def process_func(example):  
  """    
  将数据集进行预处理   
   """    
    input_ids, attention_mask, labels = [], [], []    
    instruction = tokenizer(  
          f"<|im_start|>system\n{PROMPT}<|im_end|>\n<|im_start|>user\n{example['input']}<|im_end|>\n<|im_start|>assistant\n",        
          add_special_tokens=False,  
  )    
  response = tokenizer(f"{example['output']}", add_special_tokens=False)    
  input_ids = instruction["input_ids"] + response["input_ids"] + [tokenizer.pad_token_id]    attention_mask = (    
      instruction["attention_mask"] + response["attention_mask"] + [1]    )   
       labels = [-100] * len(instruction["input_ids"]) + response["input_ids"] + [tokenizer.pad_token_id]  
         if len(input_ids) > MAX_LENGTH:  # 做一个截断    
             input_ids = input_ids[:MAX_LENGTH]        
             attention_mask = attention_mask[:MAX_LENGTH]        
             labels = labels[:MAX_LENGTH]    
             return {"input_ids": input_ids, "attention_mask": attention_mask, "labels": labels}   

def predict(messages, model, tokenizer):   
 device = "cuda"   
  text = tokenizer.apply_chat_template(    
      messages,       
       tokenize=False,       
        add_generation_prompt=True 
   )   

 model_inputs = tokenizer([text], return_tensors="pt").to(device)    
 generated_ids = model.generate(     
    model_inputs.input_ids,        
    max_new_tokens=MAX_LENGTH,  
  )  
    generated_ids = [   
         output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)  
  ]    
  response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]    
  return response

# 在modelscope上下载Qwen模型到本地目录下
model_dir = snapshot_download("Qwen/Qwen3-1.7B", cache_dir="/root/autodl-tmp/", revision="master")

# Transformers加载模型权重
tokenizer = AutoTokenizer.from_pretrained("/root/autodl-tmp/Qwen/Qwen3-1.7B", use_fast=False, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("/root/autodl-tmp/Qwen/Qwen3-1.7B", device_map="auto", torch_dtype=torch.bfloat16)
model.enable_input_require_grads()  # 开启梯度检查点时,要执行该方法

# 加载、处理数据集和测试集
train_dataset_path = "train.jsonl"
test_dataset_path = "val.jsonl"
train_jsonl_new_path = "train_format.jsonl"
test_jsonl_new_path = "val_format.jsonl"

if not os.path.exists(train_jsonl_new_path):  
  dataset_jsonl_transfer(train_dataset_path, train_jsonl_new_path)
  if not os.path.exists(test_jsonl_new_path):   
   dataset_jsonl_transfer(test_dataset_path, test_jsonl_new_path)

# 得到训练集
train_df = pd.read_json(train_jsonl_new_path, lines=True)
train_ds = Dataset.from_pandas(train_df)
train_dataset = train_ds.map(process_func, remove_columns=train_ds.column_names)

# 得到验证集
eval_df = pd.read_json(test_jsonl_new_path, lines=True)
eval_ds = Dataset.from_pandas(eval_df)
eval_dataset = eval_ds.map(process_func, remove_columns=eval_ds.column_names)

args = TrainingArguments(  
  output_dir="/root/autodl-tmp/output/Qwen3-1.7B",    
  per_device_train_batch_size=1,    
  per_device_eval_batch_size=1,    
  gradient_accumulation_steps=4,    
  eval_strategy="steps",    
  eval_steps=100,    
  logging_steps=10,    
  num_train_epochs=2,    
  save_steps=400,   
   learning_rate=1e-4,    
   save_on_each_node=True,   
    gradient_checkpointing=True,    
    report_to="swanlab",    
    run_name="qwen3-1.7B",
)

trainer = Trainer(
    model=model,    
    args=args,   
     train_dataset=train_dataset,    
     eval_dataset=eval_dataset,    
     data_collator=DataCollatorForSeq2Seq(tokenizer=tokenizer, padding=True),
)

trainer.train()

# 用测试集的前3条,主观看模型
test_df = pd.read_json(test_jsonl_new_path, lines=True)[:3]
test_text_list = []
for index, row in test_df.iterrows(): 
   instruction = row['instruction']    
   input_value = row['input']    
   messages = [   
        {"role": "system", "content": f"{instruction}"},       
         {"role": "user", "content": f"{input_value}"}    ]   
          response = predict(messages, model, tokenizer)    
          response_text = f"""    
          Question: {input_value}  
            LLM:{response}    
            """  
              test_text_list.append(swanlab.Text(response_text))    
              print(response_text)

swanlab.log({"Prediction": test_text_list})

swanlab.finish()


看到下面的进度条即代表训练开始:

img

2.6、 训练结果演示

在SwanLab上查看最终的训练结果:

img

SwanLab可视化训练仪表盘

可以看到核心要关注的指标有train losseval loss,同时还有在训练完成时记录的3条LLM生成测试结果。

让我们分析一下吧!使用「创建折线图」功能,把train loss和eval loss放到一张图上:

img

蓝色的是train loss,绿色的是eval loss。

可以看到发生了经典的过拟合现象:train loss会在epoch的交替阶段,阶梯式下降;而val loss在第1轮epoch是下降的,但是第二轮反而上升了,符合机器学习中经典过拟合的定义。

这也说明,在2000条数据这个量级,全参微调做1个epoch就可以了,往后反而效果越来越差。

那我们接下来看看模型生成的效果:

img

img

可以看到,微调后的模型明确地有了思考过程,并且在思考过程的前后增加了think标签

回答的质量也挺不错,不过我对医学不太了解,也希望如果有学医的同学可以一起看看!

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

### 关于Qwen2-72B大模型微调入门战教程 对于希望深入了解并实践Qwen2-72B大模型微调的开发者而言,虽然特定针对此版本的公开详尽文档可能有限,但从已有资料可以推测出通用流程[^1]。通常情况下,大型语言模型如Qwen2系列遵循相似的基础架构设计原则,在不同规模下主要区别在于参数量以及由此带来的计算资源需求差异。 #### 准备工作 为了顺利开展基于Qwen2-72B的大模型微调验,建议先确认本地开发环境满足最低硬件条件: - Python 版本需达到3.8及以上; - 配置有NVIDIA GPU设备用于加速训练过程; 接着按照官方指导完成必要的软件包安装操作,这一步骤涉及但不限于PyTorch框架及其依赖项、transformers库以及其他辅助工具集。 #### 数据预处理 考虑到大规模预训练模型的特点,输入数据应当经过精心清洗与格式化处理,确保每条记录都严格匹配预期结构——即一对指令和对应的期望响应形式。具体到中文语境下的应用例时,则推荐采用类似`zh_cls_fudan_news`这样的高质量标注集合作为基础素材来源之一。 #### 加载预训练权重 利用Hugging Face Transformers或其他兼容接口快速导入已发布的Qwen2-72B初始状态向量文件,从而建立起待优化的目标网络拓扑关系图谱。注意调整超参设定使之适应当前任务场景的需求特点。 ```python from transformers import AutoModelForCausalLM, AutoTokenizer model_name_or_path = "qwen/Qwen-72B" tokenizer = AutoTokenizer.from_pretrained(model_name_or_path) model = AutoModelForCausalLM.from_pretrained(model_name_or_path) # 将模型设置为训练模式 model.train() ``` #### 构建自定义训练循环 围绕选定的任务目标定制专属的学习策略,比如引入早停机制防止过拟合现象发生、动态调节学习率促进收敛速度提升等措施。与此同时集成TensorBoardX或Wandb这类第三方组件便于时跟踪进度变化趋势图表展示效果评估指标走势情况。 ```python import torch.optim as optim from datasets import load_dataset from tqdm.auto import tqdm optimizer = optim.AdamW(model.parameters(), lr=5e-6) train_loader = ... # 初始化 DataLoader 对象读取预处理后的样本批次 for epoch in range(num_epochs): pbar = tqdm(train_loader) for batch in pbar: optimizer.zero_grad() outputs = model(**batch) loss = outputs.loss loss.backward() optimizer.step() pbar.set_description(f&#39;Epoch {epoch}, Loss: {loss.item():.4f}&#39;) ``` #### 测试与验证 最后阶段要安排一定数量的真案例测试环节检验最终成果质量水平如何,并据此作出相应改进计划直至满意为止。期间可参照先前分享过的几个典型应用场景加以对比分析找出潜在优势所在之处。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值