大模型开山鼻祖之InstructGPT

OpenAI发布chatgpt之后,举世震惊,但是在这之前NLP领域几乎是走入了一条死胡同,看不到前景和未来。随着chatgpt发布,改变了这一情况,但是chatgpt并没有开源,所以大家对于技术细节也是停留在猜测的阶段,大家认为openai之前发表的一篇名为InstructGPT(Training language models to follow instructions with human feedback)的论文和chatgpt的结构最为接近。

InstructGPT 开创了一个经典的模型训练方法:先进行预训练,然后是监督式微调,最后是基于强化学习的人类反馈(Reinforcement Learning from Human Feedback, RLHF)训练模型。在最近两年,大家都在寻找替代RLHF的训练方式(DPO等),虽然在论文中一直在极力的证明的DPO的有效性,但是实际应用中效果并不明显。可以说至今还没有一个特别有效的方式替代RLHF的训练方式。

下面详细介绍一下InstructGPT的训练过程

请添加图片描述

InstructGPT三部曲:(1)有监督微调(SFT);(2)奖励模型(RM)训练;(3)通过PPO根据奖励模型进行强化学习。其中(2)(3)可以反复迭代

详细拆解一下三部曲以及这三部每一部分需要的训练数据集:

  • SFT:
    在这一部分中,通过有监督的方式进行微调。训练模型模仿人的响应,即给定一个提示(prompt),模型应该生成与人类回答相似的响应

    训练数据结构:有两个部分,一个部分是问题或者提示词集合(prompt),另一部分是针对每个问题或者提示人类高质量的回答

  • RM模型:有监督微调完成后,需要训练一个奖励模型。一个模型用于评估文本生成的质量,并且指导模型在后续的强化学习中进行优化。

    训练数据结构:这部分的数据集需要成对出现,也需要有两个部分,一个部分是问题或者提示词集合(prompt)另外一个部分是成对的文本,这些文本是被标注人员按照文本质量进行了排名

  • 强化学习:在这一阶段,通过强化学习进一步优化,以最大化奖励模型给出的得分。

    训练数据结构:在这一步中,不需要额外的数据集,而是使用奖励模型作为环境的一部分,来动态地评价模型的输出,并据此更新模型参数。

    以上介绍了InstructGPT的大体结构和每一步步骤的训练数据集的构建方式。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值