总结:大模型指令对齐训练原理

本文介绍了大模型指令对齐训练的各种方法,包括RLHF、SFT、RRHF、LIMA、DPO和RAFT等。RLHF通过AI模型间的相互评估和微调实现对齐;RRHF通过排名损失实现人类偏好对齐;LIMA假设对齐主要发生在预训练阶段;DPO提出直接优化语言模型以匹配人类偏好;RAFT涉及模型的自我指令创建和自我奖励,以迭代方式提升模型能力和奖励建模效果。
摘要由CSDN通过智能技术生成

原文地址:大模型指令对齐训练原理

  • RLHF
    • SFT
    • RM
    • PPO
  • AIHF-based
    • RLAIF
      • 核心在于通过AI 模型监督其他 AI 模型,即在SFT阶段,从初始模型中采样,然后生成自我批评和修正,然后根据修正后的反应微调原始模型。在 RL 阶段,从微调模型中采样,使用一个模型来评估生成的样本,并从这个 AI 偏好数据集训练一个偏好模型。然后使用偏好模型作为奖励信号对 RL 进行训练
    • 28
      点赞
    • 10
      收藏
      觉得还不错? 一键收藏
    • 0
      评论

    “相关推荐”对你有帮助么?

    • 非常没帮助
    • 没帮助
    • 一般
    • 有帮助
    • 非常有帮助
    提交
    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值