如何微调LLM大模型？看这一篇就够了！

最新推荐文章于 2025-05-02 22:52:22 发布

AI大模型入门教程

最新推荐文章于 2025-05-02 22:52:22 发布

阅读量1.1k

点赞数 16

文章标签： iphone ios 人工智能产品经理 chatgpt 机器学习算法

本文链接：https://blog.csdn.net/Everly_/article/details/142782288

版权

在这篇文章中，我们将探讨一些用于策划高质量训练数据集的经验法则。

微调LLMs是一门艺术与科学的结合，该领域的最佳实践仍在不断发展中。在本篇博文中，我们将突出微调的设计变量，并给出我们迄今为止所见的最佳实践的方向性指导，以在资源受限的情况下微调模型。我们建议使用下面的信息作为制定微调实验策略的起点。

都显示出在应用于新领域时改进了下游性能，无论在学术环境中还是在实际设置。选择哪种取决于：

更可能遭受两个问题：

如该系列的第一部分所述，灾难性遗忘导致模型失去其能力。一些早期经验研究表明，全量微调比PEFT更易出现上述问题，尽管还需要进一步研究。

设计上作为微调的自然正则化器。PEFT通常需要相对较少的计算资源来训练下游模型，且对于数据集大小有限的资源受限场景更适用。

某些情况下，全量微调在感兴趣的特定任务上表现更好，通常是牺牲了模型的一些原有能力。这种“学习-遗忘”的权衡在LoRA和全量微调之间的比较论文中进行了深入探讨在此论文中。

考虑到资源限制，PEFT技术可能比全量微调提供更好的性能提升/成本比率。如果在资源受限的情况下，下游性能至关重要，那么全量微调将是更有效的。无论在哪种情况下，关键在于创建高质量的数据集，同时牢记以下主要原则。

在文献中的微调实验中，数据集对于充分利用微调至关重要。这不仅仅是“质量更高和更多样例”的问题，你可以智能地投资于数据收集以提高资源受限微调实验的表现。

总体趋势是质量比数量更重要—即最好拥有一小套高质量数据，而非一大套低质量数据。质量的关键原则包括一致的标注、无错误、未标记的数据、噪声输入/输出以及与总体相比具有代表性分布。

微调时，LIMA数据集中的几千个精心挑选的例子比5万个机器生成的Alpaca数据集表现更好。OpenAI微调文档建议，即使是50到100个样例的数据集也可能有所作为。

相对较难的任务，如文本生成和摘要，比简单的任务如分类和实体提取更难微调，且需要更多的数据。“较难”可指多种情况：输出中的更多标记、所需的人类能力等级更高、多个正确答案。

由于数据收集昂贵，建议以下策略以提高样本效率和降低成本：

简单来说，如果你过度训练模型以产生某种特定类型的响应，则即使这不是最合适的答案，模型也会偏向于给出那种响应。这里的经验法则是尽可能确保训练数据反映模型在现实世界中的行为方式。

重复： 这已经被发现是模型退化的根源，无论是微调还是预训练。通过去重实现的多样性往往能改善性能指标。
输入的多样性： 通过改写输入来实现多样性。在微调SQLCoder2时，团队重新表述了伴随SQL查询的纯文本，以引入语法和语义多样性。类似地，指令回译已被用于人类编写文本，通过问LLM“这可能是对什么问题的回答？”来生成问答数据集。
数据集的多样性： 当微调更一般的下游任务——例如多语言适应——时，使用多样化的数据集已被证明可以改善模型遗忘原始能力与学习新能力之间的学习-遗忘权衡。为不同语言如印地语和奥迪亚语微调的模型使用了丰富的语言特定数据集与其他指令微调数据集，如FLAN、Alpaca、Dolly等，以增加多样性。
标准化输出： 从输出中移除空格和其他格式花招已被证明是有帮助的。SQLCoder2从生成的SQL中移除空格，让模型专注于学习重要的SQL概念，而不是像空格和缩进这样的花招。如果你希望回答中有特定的语气，“帮助台聊天机器人是…”，那么在每个例子中都加入这些内容。

为了策划高质量多样化的数据集，数据管道经常使用LLM来减少标注成本。实践中观察到的技术：

评估你的数据集中的不良输出： 如果模型在某些方面仍然表现不佳，添加直接展示给模型如何正确处理这些方面的训练例子。如果你的模型有语法、逻辑或风格问题，检查你的数据是否有同样的问题。例如，如果模型现在说“我会为你安排这次会议”（当它不应该这样做时），看看现有例子是否教会了模型说它可以做它不能做的事情。
审视正负类平衡： 如果数据中有60%的助手回应说“我无法回答这个问题”，但在推理阶段只有5%的回应应该这么说，那么你可能会得到过多的拒绝回应。
详尽性和一致性： 确保你的训练例子包含所有需要的回应信息。如果我们希望模型根据用户的个人特质赞美用户，并且训练例子中包含了对前面对话中没有提到的特质的助手赞美的例子，模型可能会学会虚构信息。确保所有的训练例子都是以预期的格式呈现，以便推理。查看训练例子中的一致性。如果多人创建了训练数据，那么模型的表现很可能受到人们之间一致性的限制。例如，在文本抽取任务中，如果人们只在70%的抽取片段上达成一致，模型很可能也无法做得更好。