SFT（监督微调）和RLHF（基于人类反馈的强化学习）的区别

最新推荐文章于 2025-03-29 09:59:53 发布

钟小宇

最新推荐文章于 2025-03-29 09:59:53 发布

阅读量3.2k

点赞数 28

分类专栏： LLM 文章标签：人工智能语言模型

本文链接：https://blog.csdn.net/guntangsanjing/article/details/144130311

版权

LLM 专栏收录该内容

1 篇文章

订阅专栏

SFT（监督微调）和RLHF（基于人类反馈的强化学习）的区别

STF（Supervised Fine-Tuning）和RLHF（Reinforcement Learning from Human Feedback）是两种不同的模型训练方法，分别用于不同的阶段和目的。以下是它们的主要区别：

1. 方法概述

STF（监督微调）：

定义：STF是指在已经预训练好的模型基础上，使用标注好的数据进一步训练模型，使其在特定任务上表现更好。
过程：通常涉及使用大量人工标注的数据，通过监督学习的方式微调模型参数。
应用：常用于分类、回归、翻译等任务。

RLHF（基于人类反馈的强化学习）：

定义：RLHF结合了强化学习和人类反馈，用于优化模型，使其输出更符合人类的期望。
过程：模型生成输出后，人类评估这些输出，并根据反馈调整模型的奖励函数。然后通过强化学习算法（如PPO）优化模型。
应用：多用于对话系统、生成任务等需要高质量输出的场景。

2. 数据需求

STF：

数据类型：需要大量高质量的标注数据。
数据获取：通常通过人工标注或现有标注数据集。

RLHF：

数据类型：需要人类反馈数据，通常是对模型输出的评价。
数据获取：通过人类评审员对模型输出进行评价，生成反馈数据。

3. 优化目标

STF：

目标：最小化模型在标注数据上的损失函数，使模型在特定任务上表现更好。
评价指标：通常是准确率、损失值等传统监督学习指标。

RLHF：

目标：最大化模型在特定任务上的奖励函数，使输出更符合人类的期望。
评价指标：基于人类反馈的奖励值，可能包括满意度评分、任务完成率等。

4. 适用场景

STF：

适用场景：适用于有明确标注数据的任务，如图像分类、文本分类、机器翻译等。
优点：可以利用大量已有的标注数据，训练过程相对简单。

RLHF：

适用场景：适用于需要高质量生成输出的任务，如对话系统、文本生成等。
优点：可以通过人类反馈不断优化模型输出质量，适应性强。

5. 训练复杂度

STF：

复杂度：相对较低，主要依赖于标注数据和传统监督学习算法。
训练时间：取决于数据量和模型复杂度。

RLHF：

复杂度：相对较高，需要结合人类反馈和强化学习算法。
训练时间：通常较长，因为需要多次迭代和人类反馈评估。

总结

STF和RLHF各有优劣，选择哪种方法取决于具体应用场景和目标。STF适用于有明确标注数据的任务，而RLHF则更适合需要高质量生成输出的任务。

STF数据长啥样

STF（监督微调）中的数据通常是结构化的标注数据，用于特定任务的模型训练。数据格式因任务而异，但一般都包括输入和对应的正确输出（标签）。以下是一些常见任务及其数据格式示例：

1. 文本分类

任务：将文本分配到预定义的类别。

数据格式：

{
  "text": "The movie was fantastic and full of excitement.",
  "label": "positive"
}

2. 机器翻译

任务：将文本从一种语言翻译到另一种语言。

数据格式：

{
  "source_text": "Hello, how are you?",
  "target_text": "Bonjour, comment ça va?"
}

3. 情感分析

任务：判断文本的情感倾向。

数据格式：

{
  "text": "I am so happy with the service!",
  "label": "positive"
}

4. 命名实体识别（NER）

任务：识别文本中的命名实体并标注其类别。

数据格式：

{
  "text": "Apple is looking at buying U.K. startup for $1 billion.",
  "entities": [
    {"start": 0, "end": 5, "label": "ORG"},
    {"start": 27, "end": 30, "label": "LOC"},
    {"start": 44, "end": 54, "label": "MONEY"}
  ]
}

5. 问答系统

任务：根据问题在给定文本中找到答案。

数据格式：

{
  "context": "Albert Einstein was a theoretical physicist who developed the theory of relativity.",
  "question": "Who developed the theory of relativity?",
  "answer": "Albert Einstein"
}

6. 文本生成

任务：根据给定的提示生成文本。

数据格式：

{
  "prompt": "Write a short story about a dragon.",
  "completion": "Once upon a time, there was a dragon who loved to read books. Every day, it would visit the library in the enchanted forest..."
}

7. 图像分类（非文本任务示例）

任务：将图像分配到预定义的类别。

数据格式：

{
  "image_path": "path/to/image.jpg",
  "label": "cat"
}

数据收集和标注

数据收集：从各种来源收集原始数据，如文本、图像、音频等。
数据标注：人工或自动标注数据，生成输入-输出对。例如，文本分类任务中，标注员会为每个文本分配一个类别标签。
数据格式化：将标注好的数据转换为适合模型训练的格式，如JSON、CSV等。

数据使用

在监督微调过程中，这些标注数据用于训练模型，使其在特定任务上表现更好。具体步骤包括：

数据加载：将标注数据加载到训练环境中。
模型训练：使用标注数据训练模型，最小化损失函数（如交叉熵损失）。
模型评估：在验证数据集上评估模型性能，调整超参数。
模型微调：根据验证结果进一步微调模型，直到达到满意的性能。

例子总结

假设我们有一个情感分析任务，以下是一个完整的示例：

{
  "text": "The product quality is amazing and I am very satisfied.",
  "label": "positive"
}

通过这种标注数据，模型可以学习如何判断文本的情感倾向，进而在实际应用中准确分类新的文本数据。

RLHF的数据长啥样

RLHF（Reinforcement Learning from Human Feedback）中的数据主要由人类对模型输出的反馈组成。这些反馈数据通常包括以下几种形式：

1. 对比评估数据（Preference Data）

人类评审员会对比模型生成的多个输出，并选择他们认为更好的一个。这种数据格式通常如下：

{
  "prompt": "Write a short story about a dragon.",
  "outputs": [
    {"text": "Once upon a time, there was a dragon who loved to read books.", "rating": 1},
    {"text": "In a faraway land, a dragon guarded a hidden treasure.", "rating": 2}
  ],
  "preferred_output": 1
}

2. 评分数据（Rating Data）

人类评审员对每个输出进行评分，评分可以是绝对的（例如1到5分）或相对的（例如比另一个输出好多少）。这种数据格式通常如下：

{
  "prompt": "Explain the theory of relativity.",
  "outputs": [
    {"text": "The theory of relativity, developed by Einstein, explains how time and space are linked.", "rating": 4},
    {"text": "Einstein's theory of relativity shows how gravity affects time and space.", "rating": 5}
  ]
}

3. 二元反馈数据（Binary Feedback）

人类评审员对每个输出进行简单的好/坏评价。这种数据格式通常如下：

{
  "prompt": "Translate 'Hello, how are you?' to French.",
  "output": "Bonjour, comment ça va?",
  "feedback": "positive"
}

4. 排序数据（Ranking Data）

人类评审员对多个输出进行排序，按照从最好到最差的顺序排列。这种数据格式通常如下：

{
  "prompt": "Generate a poem about the sea.",
  "outputs": [
    {"text": "The sea is vast and deep, a mystery to keep.", "rank": 1},
    {"text": "Waves crash on the shore, a sound I adore.", "rank": 2},
    {"text": "Blue waters stretch far, under the evening star.", "rank": 3}
  ]
}

5. 自由文本反馈（Free-text Feedback）

人类评审员提供详细的文本反馈，解释为什么他们喜欢或不喜欢某个输出。这种数据格式通常如下：

{
  "prompt": "Describe a sunset.",
  "output": "The sun sets over the horizon, painting the sky with hues of orange and pink.",
  "feedback": "The description is vivid, but could use more detail about the colors and the overall atmosphere."
}

数据收集过程

生成初始输出：模型根据输入生成多个候选输出。
人类评估：人类评审员对这些候选输出进行评估，提供对比、评分、排序或自由文本反馈。
反馈数据存储：将评估结果存储为结构化数据，供后续训练使用。

数据使用

在训练过程中，这些反馈数据用于调整模型的奖励函数。通过强化学习算法（如PPO），模型学习如何生成更符合人类期望的输出。具体来说，模型会根据人类反馈调整策略，使得未来生成的输出能够获得更高的奖励。

例子总结

假设我们有一个对话生成任务，以下是一个完整的示例：

{
  "prompt": "Tell me a joke.",
  "outputs": [
    {"text": "Why don't scientists trust atoms? Because they make up everything!", "rating": 5},
    {"text": "Why did the chicken join a band? Because it had the drumsticks!", "rating": 4}
  ],
  "preferred_output": 0,
  "feedback": "Both jokes are funny, but the first one is more related to science, which I find more interesting."
}