【LLM】为什么要PPO

当前主流的方式是,先LSPT,类似于模仿学习,模仿人类的做法->然后RLHF,具体来说其实就是PPO算法,其实就是loss和训练的方式,利用的是比较的监督信号,最大的也最关键的不同就是在于:PPO(RL)的负例是有用的,从而让大模型知道“安全护栏”在哪里,这是LSPT很难做到的,比如防止生成黄色内容。

  1. LSPT (Large Scale Pre-Training):
    目标:学习语言和广泛的知识

    • 在大规模、多样化的文本数据上训练
    • 学习语言的基本结构、语法、语义
    • 获取广泛的世界知识和事实信息
    • 发展基本的推理和生成能力
  2. SFT (Supervised Fine-Tuning):
    目标:增强特定任务的表现

    • 使用高质量、任务相关的标注数据
    • 改善模型在特定类型任务上的表现(如问答、摘要、对话等)
    • 学习特定的输出格式和风格
    • 提高模型对特定领域知识的应用能力
  3. RLHF (Reinforcement Learning from Human Feedback):
    目标:人类价值观对齐

    • 使用人类反馈来优化模型的行为
    • 学习遵循人类偏好和价值观
    • 建立"安全护栏",避免生成有害或不当内容
    • 提高模型的社会适应性和道德意识

这种三阶段方法的优势在于:

  1. 逐步优化:每个阶段都建立在前一阶段的基础之上,逐步细化模型的能力。

  2. 分离关注点:每个阶段专注于不同的学习目标,使得训练过程更加可控和高效。

  3. 灵活性:可以根据具体需求调整每个阶段的重点和资源分配。

  4. 平衡通用性和特殊性:LSPT提供广泛基础,而SFT和RLHF则提供特定任务优化和价值观对齐。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值