【大模型】大模型指令微调的“Prompt”模板_大模型微调数据集格式

和老莫一起学AI

于 2024-09-27 14:41:01 发布

阅读量379

点赞数 10

文章标签： prompt 人工智能自然语言处理语言模型算法 java ai

本文链接：https://blog.csdn.net/2401_85373691/article/details/142593145

版权

文章目录

一、微调数据集格式
二、常用的指令监督微调模板
- 2.1 指令跟随格式（Alpaca）
- 2.2 多轮对话格式（ShareGPT）
- 2.3 其他形式
- 2.4 常见模板
参考资料

一、微调数据集格式

在进行大模型微调的过程中，我们会发现“Prompt”格式太多。不同的模型对应不同的微调数据集，不同数据集的指令数据形式有所不同。

yahma / alpaca-cleaned ：这是斯坦福大学发布的原始 alpaca 数据集的清理版本，包含有约52K条数据。数据集主页：https://huggingface.co/datasets/yahma/alpaca-cleaned
Open-Orca / OpenOrca

二、常用的指令监督微调模板

指令监督微调(Instruct Tuning) 通过让模型学习详细的指令以及对应的回答来优化模型在特定指令下的表现。

目前常见微调数据集的格式包括以下几种：

指令跟随格式：以Alpaca为代表
多轮对话格式：以ShareGPT为代表
其他辅助格式：文本数据等

2.1 指令跟随格式（Alpaca）

指令跟随形式是指用户输入指令，模型按照指令的要求输出结果的格式。这种形式的数据集通常采用json文件格式存储，典型的如Alpaca-52k数据集。Alpaca-52k是一个开源的遵循指令的，最初用来微调LLaMA模型以得到Alpaca-7B模型的数据集，包含了52k条指令数据。

Alpaca的格式有两类，一类是instruction/output格式，另一类是 instruction / input / output 格式。各列的含义如下：

instruction：对应的内容为人类指令
input：对应的内容为人类输入
output：对应的内容为模型回答。

数据样例来自：https://github.com/hiyouga/LLaMA-Factory/blob/main/data/alpaca_zh_demo.json/#L42

（1）instruction / output 格式

  {
    "instruction": "用“黎明”、“天空”和“广阔”这三个词组成一个句子。",
    "output": "随着黎明的到来，天空逐渐明亮，一片广阔的视野展现在眼前。"
  }

（2） instruction / input / output 格式

  {
    "instruction": "计算这些物品的总费用。 ",
    "input": "输入：汽车 - $3000，衣服 - $100，书 - $20。",
    "output": "汽车、衣服和书的总费用为 $3000 + $100 + $20 = $3120。"
  }

在进行指令监督微调时， instruction 列对应的内容会与 input 列对应的内容拼接后作为最终的人类输入，即人类输入为 instruction\ninput。而 output 列对应的内容为模型回答。

然而，由于生成Alpaca数据集的 self-instruct 技术得到的数据集本身存在一些瑕疵，因此数据集需要进一步清洗和改进，例如 alpaca-cleaned 和 alpaca-gpt4 都是基于原始数据集清洗后的数据集。此外还有中文翻译版本。这些数据集通常包含几万个指令对，文件大小约为40MB左右的json格式文件。

2.2 多轮对话格式（ShareGPT）

多轮对话形式是指用户和模型之间以对话的形式进行，模型将通过与用户进行多轮的交互最终来达到用户的需求。典型的如训练Vicuna模型所使用的 ShareGPT 数据集。

ShareGPT本身是一个与ChatGPT（GPT-4）模型的聊天记录分享平台，它托管了大量由用户挑选的对话数据集，这些聊天记录通常展示的是聊天机器人自然流畅、具有创意的回答。Vicuna模型通过收集该平台的数据，其训练出来的模型具有较好的多轮对话能力。

相比 alpaca 格式的数据集， sharegpt 格式支持更多的角色种类，例如 human、gpt、observation、function 等等。它们构成一个对象列表呈现在 conversations 列中。下面是 sharegpt 格式的一个例子：

{
  "conversations": [
    {
      "from": "human",
      "value": "你好，我出生于1990年5月15日。你能告诉我我今天几岁了吗？"
    },
    {
      "from": "function_call",
      "value": "{\"name\": \"calculate_age\", \"arguments\": {\"birthdate\": \"1990-05-15\"}}"
    },
    {
      "from": "observation",
      "value": "{\"age\": 31}"
    },
    {
      "from": "gpt",
      "value": "根据我的计算，你今天31岁了。"
    }
  ],
  "tools": "[{\"name\": \"calculate_age\", \"description\": \"根据出生日期计算年龄\", \"parameters\": {\"type\": \"object\", \"properties\": {\"birthdate\": {\"type\": \"string\", \"description\": \"出生日期以YYYY-MM-DD格式表示\"}}, \"required\": [\"birthdate\"]}}]"
}

注意其中 human 和 observation 必须出现在奇数位置，gpt 和 function 必须出现在偶数位置。

[
  {
    "conversations": [
      {
        "from": "human",
        "value": "人类指令"
      },
      {
        "from": "function_call",
        "value": "工具参数"
      },
      {
        "from": "observation",
        "value": "工具结果"
      },
      {
        "from": "gpt",
        "value": "模型回答"
      }
    ],
    "system": "系统提示词（选填）",
    "tools": "工具描述（选填）"
  }
]

2.3 其他形式

除了上述提到的数据格式，还有一些数据格式不易转化为对话形式，例如纯文本文档。另外，还有一些针对特定用途的数据集，例如文本总结数据集以及根据纯文本生成对话的数据集，如RefGPT文章提到的方案。根据文本的不同功能，它们还包括调用API的格式和调用数据库语言的格式等。

当然，除非以纯文本的形式存在，否则这些格式都可以转换为指令跟随或多轮对话的格式。 下面给出两个具体的示例：

纯文本数据集
大语言模型通过学习未被标记的文本进行预训练，从而学习语言的表征。通常，预训练数据集从互联网上获得，因为互联网上提供了大量的不同领域的文本信息，有助于提升模型的泛化能力。预训练数据集文本描述格式如下：

[
  {"text": "document"},
  {"text": "document"}
]

在预训练时，只有 text 列中的内容（即document）会用于模型学习。

偏好数据集
偏好数据集用于奖励模型训练、DPO 训练和 ORPO 训练。对于系统指令和人类输入，偏好数据集给出了一个更优的回答和一个更差的回答。偏好数据集需要在 chosen 列中提供更优的回答，并在 rejected 列中提供更差的回答。
基于 Alpaca 的偏好数据集，在一轮问答中其格式如下：

[
  {
    "instruction": "人类指令（必填）",
    "input": "人类输入（选填）",
    "chosen": "优质回答（必填）",
    "rejected": "劣质回答（必填）"
  }
]

2.4 常见模板

参考博客：[NLP]LLM—大模型指令微调中的“Prompt”

参考资料

零基础如何学习大模型 AI

领取方式在下方

学习资料领取

如果你对大模型感兴趣，可以看看我整合并且整理成了一份AI大模型资料包，需要的小伙伴文末免费领取哦，无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述

为什么要学习大模型？

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术，如自然语言处理和图像识别，正在推动着人工智能的新发展阶段。通过学习大模型课程，可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术，从而提升自己在数据处理、分析和决策制定方面的能力。此外，大模型技术在多个行业中的应用日益增加，掌握这一技术将有助于提高就业竞争力，并为未来的创新创业提供坚实的基础。

大模型典型应用场景

①AI+教育：智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据，提供量身定制的学习方案，提高学习效果。
②AI+医疗：智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像，辅助医生进行早期诊断，同时根据患者数据制定个性化治疗方案。
③AI+金融：智能投顾和风险管理系统帮助投资者做出更明智的决策，并实时监控金融市场，识别潜在风险。
④AI+制造：智能制造和自动化工厂提高了生产效率和质量。通过AI技术，工厂可以实现设备预测性维护，减少停机时间。

⑤AI+零售：智能推荐系统和库存管理优化了用户体验和运营成本。AI可以分析用户行为，提供个性化商品推荐，同时优化库存，减少浪费。

⑥AI+交通：自动驾驶和智能交通管理提升了交通安全和效率。AI技术可以实现车辆自动驾驶，并优化交通信号控制，减少拥堵。

…
这些案例表明，学习大模型课程不仅能够提升个人技能，还能为企业带来实际效益，推动行业创新发展。