LLM-2022：InstructGPT【GPT3-（问题和答案拼成一段对话，使用这些对话微调GPT3）-＞SFT（监督微调）-（SFT的答案排序后的数据集上再训练）-＞RM-＞RL（强化学习）】

u013250861

已于 2023-06-17 10:41:22 修改

阅读量605

点赞数

分类专栏： # LLM/经典模型文章标签：语言模型

于 2023-03-16 11:01:57 首次发布

本文链接：https://blog.csdn.net/u013250861/article/details/129582029

版权

LLM/经典模型专栏收录该内容

38 篇文章 26 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

InstructGPT是基于GPT3的微调模型，通过指示学习和人工反馈的强化学习提高模型与人类意图的匹配度。模型训练分为三个阶段：有监督微调（SFT）、奖励模型（RM）训练和强化学习（PPO）。SFT数据集用于微调，RM数据集用于训练奖励模型，PPO数据集用于强化学习。InstructGPT在真实性和无害性上优于GPT-3，但可能会降低在通用NLP任务上的效果，并对指示过度敏感。

摘要由CSDN通过智能技术生成

一、前言

GPT系列是OpenAI的一系列预训练文章，GPT的全称是Generative Pre-Trained Transformer，顾名思义，GPT的目的就是通过Transformer为基础模型，使用预训练技术得到通用的文本模型。目前已经公布论文的有文本预训练GPT-1，GPT-2，GPT-3，以及图像预训练iGPT。据传还未发布的GPT-4是一个多模态模型。最近非常火的ChatGPT和今年年初公布的[1]是一对姐妹模型，是在GPT-4之前发布的预热模型，有时候也被叫做GPT3.5。ChatGPT和InstructGPT在模型结构，训练方式上都完全一致，即都使用了指示学习（Instruction Learning）和人工反馈的强化学习（Reinforcement Learning from Human Feedback，RLHF）来指导模型的训练，它们不同的仅仅是采集数据的方式上有所差异。所以要搞懂ChatGPT，我们必须要先读懂InstructGPT。

1、InstructGPT是在GPT3上微调，ChatGPT是在GPT3.5上微调

2、该论文展示了怎么样对

了解本专栏

超级会员免费看

u013250861

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
LLM-2022：InstructGPT【GPT3-（问题和答案拼成一段对话，使用这些对话微调GPT3）-＞SFT（监督微调）-（SFT的答案排序后的数据集上再训练）-＞RM-＞RL（强化学习）】

GPT系列是OpenAI的一系列预训练文章，GPT的全称是Generative Pre-Trained Transformer，顾名思义，GPT的目的就是通过Transformer为基础模型，使用预训练技术得到通用的文本模型。目前已经公布论文的有文本预训练GPT-1，GPT-2，GPT-3，以及图像预训练iGPT。据传还未发布的GPT-4是一个多模态模型。最近非常火的ChatGPT和今年年初公布的[1]是一对姐妹模型，是在GPT-4之前发布的预热模型，有时候也被叫做GPT3.5。
复制链接

扫一扫

专栏目录