ChatGPT训练流程

从流域到海域

已于 2023-07-11 15:40:27 修改

阅读量2.9k

点赞数 1

分类专栏：大语言模型文章标签： chatgpt 大语言模型 LLM 自然语言处理

于 2023-07-10 15:02:40 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/solo95/article/details/131638614

版权

大语言模型专栏收录该内容

22 篇文章 8 订阅

订阅专栏

图源：State of GPT - Microsoft Build

在这里插入图片描述
笔者翻译上图如下：
请添加图片描述

阶段	子阶段	目标	备注
Pre-Training	--------	语言建模
Instruction Finetuning	---------	让模型能够理解自然语言指令
RLHF	Reward Modeling	奖励建模，用来代替人工打分，降低标注成本	奖励模型是用来建模强化学习的一个组件
RLHF	Reinforcement Learning	强化学习建模，通过强化学习的方式训练模型输出奖励最大的文本，即更符合人类偏好的文本

强化学习建模过程如下：

将指令精调后的大语言模型作为Agent，agent的action即给定输入文本 $i$ 进入 $St a t e$ $S_i$ 后的文本 $Output_i$ 。

所有可能输入的文本构成了agent的状态空间
所有可能输出的文本构成了agent的动作空间

将奖励模型作为Environment对模型输出进行打分，将分数作为奖励。

注：

二元分类说法并不准确，原始目标是希望对两个生成的回复进行打分即两者之间按更符合人类预期进行比较，胜出的回复应该得到更多的分数，亦即获得更大的奖励。或者也可以认为是在两者之间做分类，将更符合人类预期的筛选出来，但前者是更加准确的描述。

图源：cs224n-2023-lecture11-prompting-rlhf.pdf
奖励模型是用来实现强化学习的一个辅助模型，可以理解为强化学习建模中的环境（Environment）

从流域到海域

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
ChatGPT训练流程

ChatGPT训练流程：1. PreTraining 2. Instruction Finetuning 3. RLHF: Reward Modeling 4. RLHF: Reinforcement Learning
复制链接

扫一扫

专栏目录

从流域到海域 CSDN认证博客专家 CSDN认证企业博客

码龄9年

413: 原创

3万+: 周排名

4768: 总排名

94万+: 访问

: 等级

1万+: 积分

534: 粉丝

636: 获赞

172: 评论

2048: 收藏

私信

关注

热门文章

分类专栏

最新评论

卷积神经网络第四周作业1 - Face Recognition for the Happy House - v1
Maverick_Gao: triplet_loss()函数的结果和预期不一致的原因是，tf.reduce_sum(tf.square(tf.subtract(anchor, positive)))你加上了axis=-1参数，你去掉就对了
Rerank进一步提升RAG效果
CSDN-Ada助手: 不知道 MySQL入门技能树是否可以帮到你：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql
Rerank进一步提升RAG效果
普通网友: 好文，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
ES常用查询方式
普通网友: 大佬的文章写的太精辟了让我深刻了解了这篇文章的精髓谢谢大佬分享，希望继续创作优质博文。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
ES数据存储与查询基本原理
普通网友: 学到了，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。