文章目录
1.前言
2025年3月12日记 这是我第一次实现大模型的微调训练,电脑的配置是显卡NVIDIA GeForce RTX 3050 Ti Laptop GPU,三年前的笔记本了,不过还是能跑起来的,训练的是Deep Seek-r1 的 1.5B 模型,之前跑 7B 的直接卡死了。如果大家有更好的显卡,可以尝试一下。在此非常感谢CSDN的大佬,在他们的基础上,我的博客进一步完善一些细节,文末会附上大佬的原文链接。那么废话不多说,直接开始!(默认大家有一定的基础)
2.训练模型
2.1 基础配置
(具体的安装和使用教程网上有很多,在这里就不做过多的赘述了)
-
使用Anaconda(Python的环境管理工具),这样就不需要一个一个单独下载python的版本,并且使用起来很方便。
-
使用PyCharm(Python的集成开发环境),可以在这里面编辑、运行.py文件等操作。
-
使用Git(分布式版本控制系统),用于克隆GitHub上的优秀项目,不用也没事,可以直接下载.zip文件。
-
使用CUDA和cuDNN(用于GPU训练加速),需要注意这里面的版本关系,别下错了。
-
使用PyTorch(深度学习框架),这个版本要与你自己电脑的CUDA版本对应。
以上就是环境配置需要的全部内容,接下来我们就进行项目复刻。
2.2 初始化环境
打开Anaconda Prompt(从Windows开始菜单找到),执行
创建新的虚拟环境
conda create -n llama python=3.10
激活虚拟环境
conda activate llama
安装PyTorch(我的CUDA是12.4,选择支持你们自己电脑的CUDA的版本)
conda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 pytorch-cuda=12.4 -c pytorch -c nvidia
克隆GitHub项目
git clone https://github.com/hiyouga/LLaMA-Factory.git
或者直接下载压缩包,如图所示
下载完成后直接在PyCharm中打开项目
在使用大佬的安装指令时出现问题,AI教我加了一个镜像源,好用
pip install -e ".[torch,metrics]" -i https://pypi.tuna.tsinghua.edu.cn/simple/
验证安装(出现版本号就成功了)
llamafactory-cli version
2.3下载大模型
在终端输入如下指令,修改大模型存放位置(选择一个合适足够大的存储位置)
echo $env:HF_HOME = "E:\soft\Hugging-Face"
修改大模型下载位置(这个一般不需要修改)
echo $env:HF_ENDPOINT="https://hf-mirror.com"
安装huggingface_hub(如果第一个下载爆红,可以试试第二个镜像源)
pip install -U huggingface_hub
pip install -U huggingface_hub -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
下载训练模型
huggingface-cli download --resume-download deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
2.4制作训练集(json格式)
{
"instruction": "你叫什么?是谁发明了你?",
"input": "",
"output": "您好,我名为 小白智能助手,是 AIOT工作室 发明的 AI 助手。我的任务是为用户提供有针对性的解答和支持。"
},
配置训练集
2.5启动LLama-Factory 的可视化微调界面(http://localhost:7860/)
llamafactory-cli webui
选择自己的训练数据集
训练的超参数根据自己的需求调整,这些参数设置是AI告诉我的,并不是最好的,可以自己摸索一下
点击开始训练
在pycharm和网页可以查看训练进度
训练完毕
2.6在线使用
驯服成功 DeepSeek-R1-1.5B模型!!!
2.7模型导出
选择一个内存足够的盘符进行导出
2.8本地使用
创建一个新环境,跟之前的训练环境隔开,如果不使用python做前端界面可以省略这一步
- 新建deepspeekApi虚拟环境
conda create -n deepspeekApi python=3.10
- 激活虚拟环境deepspeekApi
conda activate deepspeekApi
- 下载所需依赖
conda install -c conda-forge fastapi uvicorn transformers pytorch
pip install safetensors sentencepiece protobuf
- 现在就可以使用python代码进行本地调用,效果如下
- 使用python编程实现上述功能,采用gradio框架进行快速开发部署(http://localhost:7860/)
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
import gradio as gr
# 模型路径
model_path = r"E:\DeepSeek-merged" # 这里选择自己保存的路径
# 加载模型和tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_path)
device = "cuda" if torch.cuda.is_available() else "cpu"
model = AutoModelForCausalLM.from_pretrained(
model_path,
torch_dtype=torch.float16 if device == "cuda" else torch.float32
).to(device)
def generate_response(message, history):
try:
# 将历史对话拼接成prompt
prompt = "\n".join([f"用户:{h[0]}\n助手:{h[1]}" for h in history]) + f"\n用户:{message}\n助手:"
# 编码输入
inputs = tokenizer(prompt, return_tensors="pt").to(device)
# 生成回复
outputs = model.generate(
inputs.input_ids,
max_length=1000,
min_length=30,
top_p=0.85,
temperature=0.6,
repetition_penalty=1.2,
no_repeat_ngram_size=3,
num_beams=4,
do_sample=True,
early_stopping=True
)
# 解码并提取新生成的回复
response = tokenizer.decode(outputs[0][inputs.input_ids.shape[-1]:],
skip_special_tokens=True)
return response
except Exception as e:
return f"生成回复时出错:{str(e)}"
# 创建Gradio界面
demo = gr.ChatInterface(
fn=generate_response,
title="AI问答助手",
description="AIOT工作室开发的智能助手",
examples=["你好!你是谁?", "你能做什么?"],
theme="soft"
)
if __name__ == "__main__":
# demo.launch(server_name="0.0.0.0", server_port=7860) # 所有端口都可以访问
demo.launch(server_name="localhost", server_port=7860) # 本地访问
3. 致谢
参考大佬的博客进行一些优化,原文链接如下: