大模型微调（Fine-Tuning）全流程思考

程序员笑武

于 2025-05-09 14:29:04 发布

阅读量677

点赞数 12

文章标签：人工智能机器学习大数据算法语言模型

本文链接：https://blog.csdn.net/m0_59164304/article/details/147821616

版权

大模型微调的过程

💡建议严格按照此流程来，不要跳步，不然可能会做无用功。

比如如果没有好好构建数据集，最后发现微调模型效果不佳是数据集的问题，就事倍功半了。

方案的构思与落地：几种可能的选择

我有个问题，我现在写了一个prompt，用户可以自己输入内容，但我不想让用户看见这个prompt，只有一个输入区在那儿，要怎么实现呢？

我怎么能够调用两个模型，让他们相互衔接呢？

……

在正式开始之前，需要先想好以下问题：

自己想要做的到底是什么？它要达到什么效果？预期目标是什么？
自己做的到底是一个广而泛之的大模型、还是一个封装好的产品（如智能体）？
创新点是在于专业领域的深耕（意味着需要训练新模型）、还是已有内容的衔接（意味着调用已有模型，用到工作流），还是二者都有？

❓什么是Agent？

——Agent指的是基于人工智能技术，尤其是大型语言模型（LLM），能够感知和理解环境，并采取行动以完成目标的智能实体

在讯飞MaaS上，如果我们想做一个Agent，可以在大模型应用平台中实现。

❓什么是workflow？

——工作流（Workflow）是指完成特定任务或一系列任务的步骤和过程。在讯飞MaaS的大模型应用平台中有对应的模块。目前已经上线的节点有：大模型、代码、决策、分支器、变量提取器、文本拼接等等。

如果你的idea需要训练新模型，那么可以继续往下。但如果你的idea只是涉及已有模型的流程拼接，则可以直接用workflow实现，不涉及以下过程。

数据集的获取与构建

数据集的获取

练成数据集，微调就成功了一大半。

——不要葱姜蒜老师

对于新手而言，我们可以根据数据集的可获得性分为两种：公开已有的、难以获得的。

❓如何获得公开已有的数据？

——最简单的数据集获取方案是去相关开源平台搜索并下载，如：github、hugging face、魔搭等平台。尤其是小说等文本类数据特别多。

也可以尝试从网站上爬取，但需要一定技术支持。

❓如果我需要的数据全网没有/难以获得怎么办？

——自行构建数据集。

然而，自行构建几百上千条数据集非常麻烦，如何能够快速实现这一过程？这里介绍两个思路

借助讯飞MaaS平台的数据增强功能。可以先尝试自己手搓50条数据，然后再借助讯飞MAAS平台【数据增强】功能让数据翻倍。
借助大模型快速构建数据集。手搓了几十条数据后，把数据作为示例丢给大模型，让它输出类似的内容
- ❗一开始不要让大模型生成太多，建议第一轮先让大模型生成20条，精读这20条，找大模型经常会犯的错误。然后把这些错误作为错误示例加入到Prompt中
- 个人经验：大模型一轮可以做到生成200条及以上的数据

一个简单的Prompt示例（来自@August）

参照示例，输出20个类似的“近期运气”问题给我，注意要生活化、语言不要太夸张，最好不要有场景、有类似于“在活动中”、“在比赛中”之类的定语与状语；语句不要太累赘、尤其是不要有太多定语，正常人不这样说话。示例：我这个季度顺利吗？我这个季度会发财吗？最近有哪些事情在等着我？最近会发生什么事情？近期我能否被幸运之神垂青？

数据的清洗

原始数据集并不符合模型训练可以接受的形式，因此需要对原始数据进行清理，处理为模型可以学习的格式。

在讯飞MaaS平台中，微调数据集通常以AIpaca的形式构建。具体内容详见讯飞开放平台说明。

AIpaca

特点：结构简单，适用于文本生成、翻译、总结等任务，尤其是单轮的、任务导向的指令微调

instruction任务的指令，类似于用户的直接输入
input任务所需的输入内容。通常情况下为空（因为若任务是开放式的，或者不需要明确输入，可以为空字符串）
output在给定指令和输入的情况下，模型需要生成的期望输出，也就是对应的正确结果或参考答案。
system可以理解成模型的预先Prompt

[  {    "instruction": "人类指令（必填）",    "input": "人类输入（选填）",    "output": "模型回答（必填）",    "system": "系统提示词（选填）",    "history": [      ["第一轮指令（选填）", "第一轮回答（选填）"],      ["第二轮指令（选填）", "第二轮回答（选填）"]    ]  }]

简单来说，这个结构可以理解为：请大模型记住现在的角色history，当用户输入类似于instruction内容的时候，大模型需要返回类似于output的结果

相当于帮助大模型建立了问题-回答之间的映射关系。

可以把数据集理解为给模型的练习题
instruction+input = 问题
output = 答案

模型基底的比较

在正式开始调试模型前，特别重要的是选择一个合适的模型基底。尽管讯飞MaaS平台已经对模型擅长的内容有了一些介绍，但具体到各个垂直领域，还是需要自行测试与总结。

其中，讯飞MaaS平台上提供的Llama3模型主要基于英文语料（训练语料中只有0.2%是中文）所以经常会有同学有以下问题：

❓如何实现Llama3的输出是中文？

——输入自己的中文数据集，然后选择全参数微调，然后再次进行lora训练。

同时，也可以在自己的中文数据集的system部分加入“请输出中文”（但目前讯飞MaaS平台好像不支持这个）

模型训练

构建好数据集、选择好模型基底后，可以开始训练模型啦！

参数的选择

在训练模型的过程中，有很多参数可以选择。

💡个人的经验是，需要尤其注意其中的“训练次数”！若数据集超过10000了，训练次数最高也要低于5，不然会出现过拟合问题（下章）

效果的评估

大家都说效果不好，那你的预期目标效果是什么呢？

——葱姜蒜煎蛋老师

对于模型效果的评估，我们可以用客观+主观的标准来衡量。尤其要注意出现过拟合问题。

❓什么是过拟合？

——过拟合指的是模型学习数据时，不仅记住了数据中的细节，还把偶然出现、不重要的东西（即“噪声”）同时记住了。

当出现过拟合问题的时候，可以考虑

数据集问题：提升数据集质量/数据集过多
微调问题：学习轮次与数据条数不匹配，学习轮次过多

主观的标准：根据自己对产品的预期，确定预期目标效果的评估框架。这是最重要的

客观的标准：查看loss曲线。

Loss曲线是用于评估模型学习状态（学习损失）的曲线。

你的loss曲线调到0.1、0.2了，肯定不行呀

——葱姜蒜煎蛋老师

理想的拟合状态

有待提升的拟合状态

以下内容来自Cheng Xiaojuan的笔记和机器学习术语表

表现1：loss下降的非常平缓，以至于似乎并没有下降，这说明模型根本没从数据中学到东西（欠拟合）。

表现2：曲线振荡

表现3：模型急剧跳跃

表现4：loss值过低，快到0.2、0.3了（来自@August）

模型的发布

模型做好发布后，可以直接调用API，请求地址如下：

wss://xingchen-api.cn-huabei-1.xf-yun.com/v1.1/chat

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述