【AI大模型】Llama Factory训练全过程（超详细实况一）

最新推荐文章于 2025-03-11 10:19:19 发布

大模型部署

最新推荐文章于 2025-03-11 10:19:19 发布

阅读量3.7k

点赞数 12

文章标签：人工智能 llama 大模型 ai大模型自然语言处理私有化部署大模型微调

本文链接：https://blog.csdn.net/huang9604/article/details/143346784

版权

前言

谨以此文记录踩坑实况，一则日后温习，二则指路旁人

llamafactory微调

1.启动llamafactory可视化页面选择模型

docker部署完成后

#运行此命令进入容器内部
docker exec -it llamafactory /bin/bash
# 启动可视化页面
llamafactory-cli webui

在这里插入图片描述

然后在本机访问localhost:7860 在这里插入图片描述

语言和需要的模型，在此选择后，模型路径会自动填充，启动训练时会自动向huggingface下载base模型，但由于国内原因，可能无法访问到huggingface，可以选择设置魔搭下载地址

set USE_MODELSCOPE_HUB=1

或者使用本地地址，这边是使用了本地地址首先在魔搭社区选择需要的文件git 拉取到本地
第一次需要安装git-lfs

git lfs install

然后选择需要的模型地址git clone即可

文件映射

由于我们使用的是docker部署的llamafactory，因此调用模型前，需要将本地的模型文件夹映射到docker镜像中，建议一并设置多个路径用以存放微调后的模型文件，命令行中输入多个映射对即可

docker run -v <本地存放目录>:<容器目录> <镜像名称>  <本地存放目录>:<容器目录> <镜像名称>

然后在模型路径中填写该文件在docker镜像的地址

继续选择参数

在这里插入图片描述

数据集设置

提示模板一定要选取，不同模型对应的模板也是不尽相同的，如果有自定义格式文件，可导入到镜像中，然后在data_info.json中进行注册,否则无法在列表选择

在这里插入图片描述
然后是比较关键的几个参数，对训练结果影响巨大

在这里插入图片描述
选择数据集后，学利率可以选择默认5e-5

#学习率
#学习率越低，训练越准确，相应的时间会更长
#对于llama3.1-8b 选择低一点的学习率比较好

#轮数
#训练轮次

#最大样本数
#即为'训练时在提供的每个数据集最多提取多少个样子进行训练'
#数据集较多的情况下建议适当设置更小的参数

训练轮数（！！！）

轮数的设置目前没有更好的办法，全凭经验对新手是不友好的，比较推荐的方案是设置一个相当大的轮数，在训练过程中关注loss曲线，当曲线越趋近于平滑，说明训练已经接近完成，此时应手动停止训练以避免过拟合

在这里插入图片描述

当然也支持命令行调用训练的方式

在这里插入图片描述

测试和导出

切换chat Tab

在这里插入图片描述
补全上次训练的检查点路径加载，即可发起对话，此时您可以初步判断训练效果了（留坑，后续更新ragas评估）
切换export Tab ，选择上次训练的检查点，填写导出目录（注意：需填写docker镜像内部目录），如果您目录已经映射本地，则可以在本地文件中查看到训练后的safetensors文件在这里插入图片描述

llamafactory就到此完成，后续会更新借助llama.cpp的量化和ollama部署

如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望