hello,我是小索奇,ChatGPT系列持续更新,从0-1,精华满满~ 有任何疑难都可以留言&私信哈
CharGPT的工作流程可以总结为以下三步
第一步、有监督的调优 (Supervised Fine-Tuning, SFT)。 预训练的语育核型在少最已标注的数据上进行调优,以学习从给定的提示列表中生成的有监督的策略。
在这一步中,ChatGPT 使用南训练的请言楼型在少量已标注的数据上进行调优。具体来说、它基于一个给定的提示(对话或问题) 生成响应,并在训练数据上进行有监督的学习,以提高在给定提示下生成正确响应的概率。
第二步,模拟人类偏好(Mimicking Human Preferences)。标注者对大量的 SFT 模型输出进行投票,由此创建了一个由比较数据组成的新数据集。在此数据集上训练新模型,被
称为训练回报模型(Reward Model,RM)。
在这一步中,ChatGPT的 SFT 模型生成大量的响应,这些响应可能包含一些不自然或不合适的内容。为了改进模型的表现,标注者对这些响应进行投票&#