大模型（LLMs）中LLM生成SFT数据的策略与方法

神经网络匠

于 2024-08-15 14:35:09 发布

阅读量868

点赞数 18

文章标签：大数据人工智能算法学习 AIGC agi

本文链接：https://blog.csdn.net/2401_86585069/article/details/141221696

版权

一、SFT数据集如何生成？

SFT数据集构建通常有两种方法：人工标注和使用LLM（比如GPT-4）来生成的，人工标注对于构建垂直领域比较合适，可以减少有偏数据，但是成本略高；使用LLM生成，可以在短时间内生成大量数据。 SFT数据集构建以及SFT微调Pipeline如下图所示：

二、Self-Instruct 篇

2.1 什么是 Self-Instruct ？

SELF-INSTRUCT，一个通过引导自己的生成来提高预训练语言模型指令跟从能力的框架。其流水线从生成指令、输入和输出语言模型的样本、过滤掉无效或相似的样本、到最后微调原始模型。应用于普通 GPT3，证明在SUPER-NATURALINSTRUCTIONS上比原始模型有 33% 的绝对改进，与使用私人用户数据和人工注释进行训练的 InstructGPT00的性能相当。

为了进一步评估，为新任务策划了一组专家编写的指令，并通过人工评估表明，使用 SELF-INSTRUCT 调整 GPT3 的性能大幅优于现有公共指令数据集，仅与 InstructGPT001 相比有 5% 的绝对差距。 SELF-INSTRUCT 提供了一种几乎无需标注的方法，用于将预训练语言模型与指令对齐，并且发布了大型综合数据集以促进未来指令调优的研究。

2.2 Self-Instruct 处理思路？

步骤1：作者从 175个种子任务中随机抽取 8 条自然语言指令作为示例，并提示InstructGPT生成更多的任务指令。
步骤2：作者确定步骤1中生成的指令是否是一个分类任务。如果是，他们要求 InstructGPT 根据给定的指令为输出生成所有可能的选项，并随机选择特定的输出类别，提示 InstructGPT 生成相应的“输入”内容。对于不属于分类任务的指令，应该有无数的“输出”选项。作者提出了“输入优先”策略，首先提示 InstructGPT根据给定的“指令”生成“输入”，然后根据“指令”和生成的“输入”生成“输出”。
步骤3：基于第 2 步的结果，作者使用 InstructGPT 生成相应指令任务的“输入”和“输出”，采用 “输出优先”或“输入优先”的策略。
步骤4：作者对生成的指令任务进行了后处理(例如，过滤类似指令，去除输入输出的重复数
据)，最终得到52K条英文指令

三、Backtranslation 篇

3.1 什么是 Backtranslation ？

回译在传统的机器学习中是一种数据增强方法，比如从中文翻译成英文，再从英文翻译会中文，这

样生成的中文与原来的中文在语义上是一致的，但是文本不同；然而SFT数据生成的回译则是通过输出来生成指令，具体步骤如下图所示：

零基础如何学习大模型 AI

领取方式在文末

为什么要学习大模型？

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术，如自然语言处理和图像识别，正在推动着人工智能的新发展阶段。通过学习大模型课程，可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术，从而提升自己在数据处理、分析和决策制定方面的能力。此外，大模型技术在多个行业中的应用日益增加，掌握这一技术将有助于提高就业竞争力，并为未来的创新创业提供坚实的基础。

大模型实际应用案例分享

①智能客服：某科技公司员工在学习了大模型课程后，成功开发了一套基于自然语言处理的大模型智能客服系统。该系统不仅提高了客户服务效率，还显著降低了人工成本。
②医疗影像分析：一位医学研究人员通过学习大模型课程，掌握了深度学习技术在医疗影像分析中的应用。他开发的算法能够准确识别肿瘤等病变，为医生提供了有力的诊断辅助。
③金融风险管理：一位金融分析师利用大模型课程中学到的知识，开发了一套信用评分模型。该模型帮助银行更准确地评估贷款申请者的信用风险，降低了不良贷款率。
④智能推荐系统：一位电商平台的工程师在学习大模型课程后，优化了平台的商品推荐算法。新算法提高了用户满意度和购买转化率，为公司带来了显著的增长。
…
这些案例表明，学习大模型课程不仅能够提升个人技能，还能为企业带来实际效益，推动行业创新发展。

学习资料领取

如果你对大模型感兴趣，可以看看我整合并且整理成了一份AI大模型资料包，需要的小伙伴文末免费领取哦，无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述

部分资料展示

一、 AI大模型学习路线图

整个学习分为7个阶段
在这里插入图片描述

二、AI大模型实战案例

涵盖AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，皆可用。
在这里插入图片描述

三、视频和书籍PDF合集

从入门到进阶这里都有，跟着老师学习事半功倍。
在这里插入图片描述

在这里插入图片描述

如果二维码失效，可以点击下方链接，一样的哦
【CSDN大礼包】最新AI大模型资源包，这里全都有！无偿分享！！！

😝朋友们如果有需要的话，可以V扫描下方二维码联系领取~
在这里插入图片描述

神经网络匠

关注

18
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
大模型（LLMs）中LLM生成SFT数据的策略与方法

SFT数据集构建通常有两种方法：人工标注和使用LLM（比如GPT-4）来生成的，人工标注对于构建垂直领域比较合适，可以减少有偏数据，但是成本略高；使用LLM生成，可以在短时间内生成大量数据。 SFT数据集构建以及SFT微调Pipeline如下图所示：2.1 什么是 Self-Instruct ？SELF-INSTRUCT，一个通过引导自己的生成来提高预训练语言模型指令跟从能力的框架。其流水线从生成指令、输入和输出语言模型的样本、过滤掉无效或相似的样本、到最后微调原始模型。应用于普通 GPT3，证明在
复制链接

扫一扫