大语言模型SFT的业务开发流程_sft的开发流程-CSDN博客

常见 SFT的开发流程

第一步，根据业务场景调整提示词（prompt）：业务团队会提供具体场景，或者给出他们编写的prompt，也可能只提供场景和数据，需要算法工程师自行编写。编写优秀的 prompt 对发挥模型的最大性能至关重要，一个出色的 prompt 可能将性能提升至80分以上直接得到业务要求，而一个普通的prompt可能只能得到50分。这里可以参考 OpenAI 和文心一言的相关教程。这里也介绍一些个人的经验：
越详细越好，给到的定义越细越好：例如多标签分类分类，不同的标签起码要有 1-2 句标签定义，你会发现大 size 的模型是十分遵循你的标签定义的，写得越详细越贴近业务，效果越好。
不要让模型理解任何歧义，如现在你输入是好几篇微博，你应该输入“微博 1：{微博 1 的内容}\n微博 2:{微博 2 的内容}…微博 n：{微博 n 的内容}”，通过一个明确的前缀让模型知道输入的是不同的微博，而不只是简单用换行符把不同的微博内容进行拼接。
遵循System message，Input，Instruction 三段式：这样输出的结果格式和效果会较为稳定。
通过模型输出的解析调整 prompt：现在的模型除了输出答案，还会输出解析理由，通过浏览模型判断错误的例子模型是怎么解释的，从而反馈到调整 prompt，看看是不是prompt 里的定义没说清楚。
第二步，尝试闭源和开源，并进行对比：Prompt 调整至差不多了，可以尝试使用不同的开源模型，如 Llama2 、 Qwen 、 Baichuan 等。实测下来，确实不同的开源模型擅长点不一样。如果开源模型效果不佳。这时考虑闭源模型，如 Chatgpt4、 Kimi 、 Qwen-max… ，以评估这闭源领先的 LLM 是否能解决这类场景问题，这一步工程师也要积累经验，对闭源和开源的效果差距要熟悉。若业务接受闭源模型的效果和成本，则直接调 API 就好。若不接受，则需转向微调闭源模型。
第三步，认真准备数据集：选定最佳闭源模型后，精选数据集，通常每个子任务的数据量不应超过1K条，数据集必须包含任务的边界样本和困难样本，并确保数据的多样性和标签的平衡。
第四步，上线迭代：最后，进行训练、上线和持续的迭代优化，以确保模型性能不断提升并满足业务需求。

训练数据要注重什么？

确保回答格式和风格的统一，如大家看 gpt4 的回答风格就是先复述理解问题，再回答，再总结，这就是一个格式的统一。经验是，训练数据的格式和风格越统一，越能最大限度地发挥模型在具体任务的效果上限。这在 LIMA、YI、 Reformatted Alignment 的论文中都有提到。
数据集既要包含难也要包含易：数据集应同时包含容易错的 “Boundary use cases” 边界数据，但也要包含常规的 “Easy” 数据，以确保模型能够处理各种难度级别的样本。
注意任务的多样性和标签的平衡。例如，若两个任务难度相当，但任务1的数据占比远大于任务2，那么微调后的模型在处理任务2时可能表现不佳。
避免引入模型在预训练阶段未接触过的知识：以减少模型产生幻觉的风险。
这里可以吸收下 Llama2、Yi、Qwen、Deepseek 和 Tigerbot 等报告的SFT数据篇中的宝贵经验。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述