【ChatGPT】ChatGPT的工作流程

在当前最佳策略模型上收集更多的比较数据,用于训练新的训练回报模型,并训练新的策略。具体来说,ChatGPT 使用 PPO 算法(一种强化学习算法) 在训练回报模型上训练,以获得更好的策略模式。具体来说、它基于一个给定的提示(对话或问题) 生成响应,并在训练数据上进行有监督的学习,以提高在给定提示下生成正确响应的概率。在这一步中,ChatGPT的 SFT 模型生成大量的响应,这些响应可能包含一些不自然或不合适的内容。预训练的语育核型在少最已标注的数据上进行调优,以学习从给定的提示列表中生成的有监督的策略。
摘要由CSDN通过智能技术生成

hello,我是小索奇,ChatGPT系列持续更新,从0-1,精华满满~ 有任何疑难都可以留言&私信哈

核心内容

CharGPT的工作流程可以总结为以下三步

第一步、有监督的调优 (Supervised Fine-Tuning, SFT)。 预训练的语育核型在少最已标注的数据上进行调优,以学习从给定的提示列表中生成的有监督的策略。

在这一步中,ChatGPT 使用南训练的请言楼型在少量已标注的数据上进行调优。具体来说、它基于一个给定的提示(对话或问题) 生成响应,并在训练数据上进行有监督的学习,以提高在给定提示下生成正确响应的概率。

第二步,模拟人类偏好(Mimicking Human Preferences)。标注者对大量的 SFT 模型输出进行投票,由此创建了一个由比较数据组成的新数据集。在此数据集上训练新模型,被

称为训练回报模型(Reward Model,RM)。

在这一步中,ChatGPT的 SFT 模型生成大量的响应,这些响应可能包含一些不自然或不合适的内容。为了改进模型的表现,标注者对这些响应进行投票&#

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值