【LLM】为什么要PPO

x66ccff

已于 2024-09-17 21:16:27 修改

阅读量134

点赞数 1

分类专栏： linux 文章标签： git vscode ide

于 2024-09-17 21:13:53 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_18846849/article/details/142318994

版权

linux 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

当前主流的方式是，先LSPT，类似于模仿学习，模仿人类的做法->然后RLHF，具体来说其实就是PPO算法，其实就是loss和训练的方式，利用的是比较的监督信号，最大的也最关键的不同就是在于：PPO（RL）的负例是有用的，从而让大模型知道“安全护栏”在哪里，这是LSPT很难做到的，比如防止生成黄色内容。

LSPT (Large Scale Pre-Training):
目标：学习语言和广泛的知识
- 在大规模、多样化的文本数据上训练
- 学习语言的基本结构、语法、语义
- 获取广泛的世界知识和事实信息
- 发展基本的推理和生成能力
SFT (Supervised Fine-Tuning):
目标：增强特定任务的表现
- 使用高质量、任务相关的标注数据
- 改善模型在特定类型任务上的表现（如问答、摘要、对话等）
- 学习特定的输出格式和风格
- 提高模型对特定领域知识的应用能力
RLHF (Reinforcement Learning from Human Feedback):
目标：人类价值观对齐
- 使用人类反馈来优化模型的行为
- 学习遵循人类偏好和价值观
- 建立"安全护栏"，避免生成有害或不当内容
- 提高模型的社会适应性和道德意识

这种三阶段方法的优势在于：

逐步优化：每个阶段都建立在前一阶段的基础之上，逐步细化模型的能力。
分离关注点：每个阶段专注于不同的学习目标，使得训练过程更加可控和高效。
灵活性：可以根据具体需求调整每个阶段的重点和资源分配。
平衡通用性和特殊性：LSPT提供广泛基础，而SFT和RLHF则提供特定任务优化和价值观对齐。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

x66ccff CSDN认证博客专家 CSDN认证企业博客

码龄10年

138: 原创

7896: 周排名

1万+: 总排名

25万+: 访问

: 等级

2414: 积分

552: 粉丝

803: 获赞

49: 评论

1067: 收藏

私信

关注

热门文章

分类专栏

专家系统 2篇
linux 11篇
NLP 9篇
python 42篇
数学 12篇
数据库 1篇
物理 1篇
图网络 1篇
最优化 1篇
机器学习 12篇
强化学习 8篇
爬虫
多模态 2篇
电脑维修 6篇

最新评论

【NLP】Bi-LSTM 进行机器翻译
wu_solo: 能把源代码发出来吗？
【搬运】GSM8K 数据集介绍
chduan_10: wget https://github.com/open-compass/opencompass/releases/download/0.2.2.rc1/OpenCompassData-core-20240207.zip
【搬运】GSM8K 数据集介绍
马上猴: GSM8K这个数据集能不能下载到本地，网上都是python代码的形式
【NLP】LSTM 唐诗生成器
m0_75104450: 想请问下在一开始的数据集中是否不包括author这一项，我在复现代码的时候，会出现KeyError: 'paragraphs'的问题，应该是因为author这一个文件，想问下一开始的文件包括哪些
【VAE】利用 MNIST 训练 VAE 模型，并对潜空间进行可视化
--吉择--: 因为 KL 散度通常是负数，所以当计算 KL 散度并将其添加到重建损失中时，整体损失可能会呈现负值。当然，损失为负并不一定意味着出现了问题，只要在训练过程中损失保持稳定并收敛，模型的训练就是有效的。

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。