Qwen2(https://modelscope.cn/models/qwen/Qwen2-1.5B-Instruct/summary)是通义千问团队最近开源的大语言模型,由阿里云通义实验室研发。
以Qwen2作为基座大模型,通过指令微调的方式做高精度文本分类,是学习LLM微调的入门任务。
在本文中,我们会使用 Qwen2-1.5b-Instruct(https://modelscope.cn/models/qwen/Qwen2-1.5B-Instruct/summary) 模型在 复旦中文新闻 (https://modelscope.cn/datasets/huangjintao/zh_cls_fudan-news/summary)数据集上做指令微调训练,同时使用SwanLab监控训练过程、评估模型效果。
显存要求不高,10GB左右就可以跑。
-
代码: 完整代码直接看本文第5节 或 Github(https://github.com/Zeyi-Lin/LLM-Finetune),Jupyter Notebook(https://github.com/Zeyi-Lin/LLM-Finetune/blob/main/train_qwen2.ipynb)
-
实验日志过程: Qwen2-1.5B-Fintune - SwanLab(https://swanlab.cn/@ZeyiLin/Qwen2-fintune/runs/cfg5f8dzkp6vouxzaxlx6/chart)
-
模型: Modelscope(https://modelscope.cn/models/qwen/Qwen2-1.5B-Instruct/summary)
-
数据集: zh_cls_fudan_news(https://modelscope.cn/datasets/huangjintao/zh_cls_fudan-news/summary)
-
SwanLab: https://swanlab.cn(https://swanlab.cn/)
本教程参考了焦躁的冷味姜汁ttb的这篇文章(https://zhuanlan.zhihu.com/p/701370317)。
知识点:什么是指令微调?
大模型指令微调(Instruction Tuning)是一种针对大型预训练语言模型的微调技术,其核心目的是增强模型理解和执行特定指令的能力,使模型能够根据用户提供的自然语言指令准确、恰当地生成相应的输出或执行相关任务。
指令微调特别关注于提升模型在遵循指令方面的一致性和准确性,从而拓宽模型在各种应用场景中的泛化能力和实用性。
https://zhuanlan.zhihu.com/p/695378820
在实际应用中,我的理解是,指令微调更多把LLM看作一个更智能、更强大的传统NLP模型(比如Bert),来实现更高精度的文本预测任务。所以这类任务的应用场景覆盖了以往NLP模型的场景,甚至很多团队拿它来标注互联网数据。
下面是实战正片:
1.环境安装
本案例基于Python>=3.8,请在您的计算机上安装好Python;
另外,您的计算机上至少要有一张英伟达显卡(显存要求并不高,大概10GB左右就可以跑)。
我们需要安装以下这几个Python库,在这之前,请确保你的环境内已安装了pytorch以及CUDA:
swanlab
modelscope
transformers
datasets
peft
accelerate
pandas
一键安装命令:
pip install swanlab modelscope transformers datasets peft pandas accelerate
本案例测试于modelscope1.14.0、transformers4.41.2、datasets2.18.0、peft0.11.1、accelerate0.30.1、swanlab0.3.9
2.准备数据集
本案例使用的是zh_cls_fudan-news(https://modelscope.cn/datasets/huangjintao/zh_cls_fudan-news/summary)数据集,该数据集主要被用于训练文本分类模型。
该数据集由几千条数据组成,每条数据包含text、category、output三列:
-
text 是训练语料,内容是书籍或新闻的文本内容;
-
category 是text的多个备选类型组成的列表;
-
output 则是text唯一真实的类型。
将三者组合成数据集的例子如下:
"""``[PROMPT]``Text: 第四届全国大企业足球赛复赛结束新华社郑州5月3日电(实习生田兆运)上海大隆机器厂队昨天在洛阳进行的第四届牡丹杯全国大企业足球赛复赛中,以5:4力克成都冶金实验厂队,进入前四名。沪蓉之战,双方势均力敌,90分钟不分胜负。最后,双方互射点球,沪队才以一球优势取胜。复赛的其它3场比赛,青海山川机床铸造厂队3:0击败东道主洛阳矿山机器厂队,青岛铸造机械厂队3:1战胜石家庄第一印染厂队,武汉肉联厂队1:0险胜天津市第二冶金机械厂队。在今天进行的决定九至十二名的两场比赛中,包钢无缝钢管厂队和河南平顶山矿务局一矿队分别击败河南平顶山锦纶帘子布厂队和江苏盐城无线电总厂队。4日将进行两场半决赛,由青海山川机床铸造厂队和青岛铸造机械厂队分别与武汉肉联厂队和上海大隆机器厂队交锋。本届比赛将于6日结束。(完)``Category: Sports, Politics``Output:`` ``[OUTPUT]``Sports``"""
我们的训练任务,便是希望微调后的大模型能够根据Text和Category组成的提示词(Prompt),预测出正确的Output。
我们将数据集下载到本地目录下。下载方式是前往zh_cls_fudan-news - 魔搭社区(https://modelscope.cn/datasets/huangjintao/zh_cls_fudan-news/files),将train.jsonl和test.jsonl下载到本地根目录下即可:
3. 加载模型
这里我们使用modelscope下载Qwen2-1.5B-Instruct模型(modelscope在国内,所以下载不用担心速度和稳定性问题),然后把它加载到Transformers中进行训练:
from modelscope import snapshot_download, AutoTokenizer``from transformers import AutoModelForCausalLM, TrainingArguments, Trainer, DataCollatorForSeq2Seq`` ``# 在modelscope上下载Qwen模型到本地目录下``model_dir = snapshot_download("qwen/Qwen2-1.5B-Instruct", cache_dir="./", revision="master")`` ``# Transformers加载模型权重``tokenizer = AutoTokenizer.from_pretrained("./qwen/Qwen2-1___5B-Instruct/", use_fast=False, trust_remote_code=True)``model = AutoModelForCausalLM.from_pretrained("./qwen/Qwen2-1___5B-Instruct/", device_map="auto", torch_dtype=torch.bfloat16)``
4. 配置训练可视化工具
我们使用SwanLab来监控整个训练过程,并评估最终的模型效果。
这里直接使用SwanLab和Transformers的集成来实现,更多用法可以参考官方文档(https://docs.swanlab.cn/zh/guide_cloud/integration/integration-huggingface-transformers.html):
from swanlab.integration.huggingface import SwanLabCallback``from transformers import Trainer`` ``swanlab_callback = SwanLabCallback(...)`` ``trainer = Trainer(` `...` `callbacks=[swanlab_callback],``)
如果你是第一次使用SwanLab,那么还需要去https://swanlab.cn上注册一个账号,在用户设置页面复制你的API Key,然后在训练开始时粘贴进去即可:
- 完整代码 开始训练时的目录结构:
|--- train.py``|--- train.jsonl``|--- test.jsonl
train.py:
import json``import pandas as pd``import torch``from datasets import Dataset``from modelscope import snapshot_download, AutoTokenizer``from swanlab.integration.huggingface import SwanLabCallback``from peft import LoraConfig, TaskType, get_peft_model``from transformers import AutoModelForCausalLM, TrainingArguments, Trainer, DataCollatorForSeq2Seq``import os``import swanlab`` `` ``def dataset_jsonl_transfer(origin_path, new_path):` `"""` `将原始数据集转换为大模型微调所需数据格式的新数据集` `"""` `messages = []`` ` `# 读取旧的JSONL文件` `with open(origin_path, "r") as file:` `for line in file:` `# 解析每一行的json数据` `data = json.loads(line)` `context = data["text"]` `catagory = data["category"]` `label = data["output"]` `message = {` `"instruction": "你是一个文本分类领域的专家,你会接收到一段文本和几个潜在的分类选项,请输出文本内容的正确类型",` `"input": f"文本:{context},类型选型:{catagory}",` `"output": label,` `}` `messages.append(message)`` ` `# 保存重构后的JSONL文件` `with open(new_path, "w", encoding="utf-8") as file:` `for message in messages:` `file.write(json.dumps(message, ensure_ascii=False) + "\n")`` `` ``def process_func(example):` `"""` `将数据集进行预处理` `"""` `MAX_LENGTH = 384`` input_ids, attention_mask, labels = [], [], []` `instruction = tokenizer(` `f"<|im_start|>system\n你是一个文本分类领域的专家,你会接收到一段文本和几个潜在的分类选项,请输出文本内容的正确类型<|im_end|>\n<|im_start|>user\n{example['input']}<|im_end|>\n<|im_start|>assistant\n",` `add_special_tokens=False,` `)` `response = tokenizer(f"{example['output']}", add_special_tokens=False)` `input_ids = instruction["input_ids"] + response["input_ids"] + [tokenizer.pad_token_id]` `attention_mask = (` `instruction["attention_mask"] + response["attention_mask"] + [1]` `)` `labels = [-100] * len(instruction["input_ids"]) + response["input_ids"] + [tokenizer.pad_token_id]` `if len(input_ids) > MAX_LENGTH: # 做一个截断` `input_ids = input_ids[:MAX_LENGTH]` `attention_mask = attention_mask[:MAX_LENGTH]` `labels = labels[:MAX_LENGTH]` `return {"input_ids": input_ids, "attention_mask": attention_mask, "labels": labels}` ` `` ``def predict(messages, model, tokenizer):` `device = "cuda"` `text = tokenizer.apply_chat_template(` `messages,` `tokenize=False,` `add_generation_prompt=True` `)` `model_inputs = tokenizer([text], return_tensors="pt").to(device)`` ` `generated_ids = model.generate(` `model_inputs.input_ids,` `max_new_tokens=512` `)` `generated_ids = [` `output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)` `]`` ` `response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]`` ` `print(response)`` ` `return response`` ``# 在modelscope上下载Qwen模型到本地目录下``model_dir = snapshot_download("qwen/Qwen2-1.5B-Instruct", cache_dir="./", revision="master")`` ``# Transformers加载模型权重``tokenizer = AutoTokenizer.from_pretrained("./qwen/Qwen2-1___5B-Instruct/", use_fast=False, trust_remote_code=True)``model = AutoModelForCausalLM.from_pretrained("./qwen/Qwen2-1___5B-Instruct/", device_map="auto", torch_dtype=torch.bfloat16)``model.enable_input_require_grads() # 开启梯度检查点时,要执行该方法`` ``# 加载、处理数据集和测试集``train_dataset_path = "train.jsonl"``test_dataset_path = "test.jsonl"`` ``train_jsonl_new_path = "new_train.jsonl"``test_jsonl_new_path = "new_test.jsonl"`` ``if not os.path.exists(train_jsonl_new_path):` `dataset_jsonl_transfer(train_dataset_path, train_jsonl_new_path)``if not os.path.exists(test_jsonl_new_path):` `dataset_jsonl_transfer(test_dataset_path, test_jsonl_new_path)`` ``# 得到训练集``train_df = pd.read_json(train_jsonl_new_path, lines=True)``train_ds = Dataset.from_pandas(train_df)``train_dataset = train_ds.map(process_func, remove_columns=train_ds.column_names)`` ``config = LoraConfig(` `task_type=TaskType.CAUSAL_LM,` `target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"],` `inference_mode=False, # 训练模式` `r=8, # Lora 秩` `lora_alpha=32, # Lora alaph,具体作用参见 Lora 原理` `lora_dropout=0.1, # Dropout 比例``)`` ``model = get_peft_model(model, config)`` ``args = TrainingArguments(` `output_dir="./output/Qwen2",` `per_device_train_batch_size=4,` `gradient_accumulation_steps=4,` `logging_steps=10,` `num_train_epochs=2,` `save_steps=100,` `learning_rate=1e-4,` `save_on_each_node=True,` `gradient_checkpointing=True,` `report_to="none",``)`` ``swanlab_callback = SwanLabCallback(` `project="Qwen2-fintune",` `experiment_name="Qwen2-1.5B-Instruct",` `description="使用通义千问Qwen2-1.5B-Instruct模型在zh_cls_fudan-news数据集上微调。",` `config={` `"model": "qwen/Qwen2-1.5B-Instruct",` `"dataset": "huangjintao/zh_cls_fudan-news",` `}``)`` ``trainer = Trainer(` `model=model,` `args=args,` `train_dataset=train_dataset,` `data_collator=DataCollatorForSeq2Seq(tokenizer=tokenizer, padding=True),` `callbacks=[swanlab_callback],``)`` ``trainer.train()`` ``# 用测试集的前10条,测试模型``test_df = pd.read_json(test_jsonl_new_path, lines=True)[:10]`` ``test_text_list = []``for index, row in test_df.iterrows():` `instruction = row['instruction']` `input_value = row['input']`` ` `messages = [` `{"role": "system", "content": f"{instruction}"},` `{"role": "user", "content": f"{input_value}"}` `]`` ` `response = predict(messages, model, tokenizer)` `messages.append({"role": "assistant", "content": f"{response}"})` `result_text = f"{messages[0]}\n\n{messages[1]}\n\n{messages[2]}"` `test_text_list.append(swanlab.Text(result_text, caption=response))`` ``swanlab.log({"Prediction": test_text_list})``swanlab.finish()
看到下面的进度条即代表训练开始:
6.训练结果演示
在SwanLab上查看最终的训练结果:
可以看到在2个epoch之后,微调后的qwen2的loss降低到了不错的水平——当然对于大模型来说,真正的效果评估还得看主观效果。
可以看到在一些测试样例上,微调后的qwen2能够给出准确的文本类型:
至此,你已经完成了qwen2指令微调的训练!
7. 推理训练好的模型
训好的模型默认被保存在./output/Qwen2文件夹下。
推理模型的代码如下:
import torch``from transformers import AutoModelForCausalLM, AutoTokenizer`` ``def predict(messages, model, tokenizer):` `device = "cuda"`` ` `text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)` `model_inputs = tokenizer([text], return_tensors="pt").to(device)`` ` `generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512)` `generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]` `response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]`` ` `return response`` `` ``# 加载原下载路径的tokenizer``tokenizer = AutoTokenizer.from_pretrained("./qwen/Qwen2-1___5B-Instruct/", use_fast=False, trust_remote_code=True)`` ``# 加载训练好的模型路径的model,将下面的checkpointXXX替换为实际的checkpoint文件名名称``model = AutoModelForCausalLM.from_pretrained("./output/Qwen2/checkpointXXX", device_map="auto", torch_dtype=torch.bfloat16)`` ``test_texts = {` `'instruction': "你是一个文本分类领域的专家,你会接收到一段文本和几个潜在的分类选项,请输出文本内容的正确类型",` `'input': "文本:航空动力学报JOURNAL OF AEROSPACE POWER1998年 第4期 No.4 1998科技期刊管路系统敷设的并行工程模型研究*陈志英* * 马 枚北京航空航天大学【摘要】 提出了一种应用于并行工程模型转换研究的标号法,该法是将现行串行设计过程(As-is)转换为并行设计过程(To-be)。本文应用该法将发动机外部管路系统敷设过程模型进行了串并行转换,应用并行工程过程重构的手段,得到了管路敷设并行过程模型。"``instruction = test_texts['instruction']``input_value = test_texts['input']`` ``messages = [` `{"role": "system", "content": f"{instruction}"},` `{"role": "user", "content": f"{input_value}"}``]`` ``response = predict(messages, model, tokenizer)``print(response)
零基础如何学习AI大模型
领取方式在文末
为什么要学习大模型?
学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术,如自然语言处理和图像识别,正在推动着人工智能的新发展阶段。通过学习大模型课程,可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术,从而提升自己在数据处理、分析和决策制定方面的能力。此外,大模型技术在多个行业中的应用日益增加,掌握这一技术将有助于提高就业竞争力,并为未来的创新创业提供坚实的基础。
大模型典型应用场景
①AI+教育:智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据,提供量身定制的学习方案,提高学习效果。
②AI+医疗:智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像,辅助医生进行早期诊断,同时根据患者数据制定个性化治疗方案。
③AI+金融:智能投顾和风险管理系统帮助投资者做出更明智的决策,并实时监控金融市场,识别潜在风险。
④AI+制造:智能制造和自动化工厂提高了生产效率和质量。通过AI技术,工厂可以实现设备预测性维护,减少停机时间。
…
这些案例表明,学习大模型课程不仅能够提升个人技能,还能为企业带来实际效益,推动行业创新发展。
学习资料领取
如果你对大模型感兴趣,可以看看我整合并且整理成了一份AI大模型资料包,需要的小伙伴文末免费领取哦,无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发
部分资料展示
一、 AI大模型学习路线图
整个学习分为7个阶段
二、AI大模型实战案例
涵盖AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,皆可用。
三、视频和书籍PDF合集
从入门到进阶这里都有,跟着老师学习事半功倍。
四、LLM面试题
五、AI产品经理面试题
如果二维码失效,可以点击下方链接,一样的哦
【CSDN大礼包】最新AI大模型资源包,这里全都有!无偿分享!!!
😝朋友们如果有需要的话,可以V扫描下方二维码联系领取~