ChatGPT演进：从GPT到InstructGPT的强化学习之路,-CSDN博客

本文链接：https://blog.csdn.net/w417950004/article/details/129048806

一，ChatGPT的前世今生

GPT-1/2/3/3.5/Instruct/Chat

GPT：基于Transformer Decoder预训练 + 微调/Finetune
GPT-2：基于Transformer Decoder预训练 + Zero-shot Learning (零样本学习)
仅通过大规模多领域的数据预训练，让模型在Zero-shot Learming的设置下自己学会解决多任务的问题
GPT-3 基于Transformer Decoder预训练 + Zero-shot Learning (零样本学习) + 大规模数据prompt完形填空
舍弃fine-tuning，使用40T的数据进行完形填空训练：给前文预测单词，有一千多亿的参数。只需将自然语言的提示信息（prompt）和任务示例（demonstration）作为上下文输入给GPT-3，它就可以在零样本或小样本的情况下执行任何NLP任务
GPT-3.5 基于Transformer Decoder预训练 + Zero-shot Learning (零样本学习) + 大规模数据prompt完形填空 + 微调/Finetune
模型使用与 GPT-3 相同的预训练数据集，但进行了额外的微调，从而更擅长以下两点：更擅长上下文学习、对话可以生成更加符合人类期待的反馈
InstructGPT GPT-3 + PPO算法finetune
基于RLHF手段微调的GPT。监督学习让GPT3有一个大致的微调方向，然后用RL中的PPO算法来更新微调过的GPT3的参数。对InstructGPT的简单理解，可以是基于人类反馈的强化学习（RLHF）手段微调的GPT3。
InstructGPT 通过将模型的目标与人类用户可能喜欢的内容“对齐”来解决这个问题。更真实、更诚实的答案，更少的毒性，等等。
ChatGPT GPT-3.5 + PPO算法finetune = Transformer + prompt学习 + RLHF + PPO
在GPT3.5的基础上，先通过基于人类偏好定义奖励函数，再基于奖励函数通过PPO持续优化。

二，一些概念

ChatGPT是InstructGPT的兄弟模型，它经过训练可以按照提示中的说明进行操作并提供详细的响应

所谓的语言模型的训练，其实就是让模型调整候选句对应的概率，使我们人类希望输出的候选句的概率尽可能大，而不希望输出的概率尽可能小。

Fine-tuning与Prompting的不同
Fine-tuning中：是预训练语言模型“迁就“各种下游任务。具体体现就是通过引入各种辅助任务loss，将其添加到预训练模型中，然后继续pre-training，以便让其更加适配下游任务。总之，这个过程中，预训练语言模型做出了更多的牺牲
Prompting中：是各种下游任务“迁就“预训练语言模型。我们需要对不同任务进行重构，使得它达到适配预训练语言模型的效果。总之，这个过程中，是下游任务做出了更多的牺牲

RLHF：人类反馈的强化学习

InstructGPT训练过程：

基于RLHF手段微调的GPT。InstructGPT的训练分为三个阶段（总体上结合了监督学习和强化学习，先是监督学习让GPT3有一个大致的微调方向，然后用RL中的PPO算法来更新微调过的GPT3的参数）。

阶段1：利用人类的标注数据（demonstration data）去对GPT3进行有监督训练
首先，OpenAI是先设计了一个prompt dataset，里面有大量的提示样本，给出了各种各样的任务描述
其次，找了一个标注团队对这个prompt dataset进行标注(本质就是人工回答问题)
最后，用这个标注过的数据集微调GPT3，这个微调好的GPT3我们称之为SFT模型（监督微调，全称Supervised fine-tuning，简称SFT），具备了最基本的预测能力
阶段2：通过RLHF的思路训练奖励模型RM
把微调好的SFT模型去回答prompt dataset某个问题，然后通过收集4个不同的SFT输出而获取4个回答，接着人工对这4个回答的好坏进行标注且排序，排序的结果用来训练一个奖励模型RM，具体做法就是学习排序结果从而理解人类的偏好
阶段3：通过训练好的RM模型预测结果且通过PPO算法优化SFT模型策略
具体做法是，再次让SFT模型去回答prompt dataset某个问题，然后此时不再让人工评估好坏，而是让阶段2训练好的奖励模型去给SFT模型的预测结果进行打分排序

参考：
July GPTN： ChatGPT通俗导论
chatgpt历程原理架构：chatgpt历程原理架构
 图解Transformer