总结:大模型指令对齐训练原理

本文介绍了大模型指令对齐训练的各种方法,包括RLHF、SFT、RRHF、LIMA、DPO和RAFT等。RLHF通过AI模型间的相互评估和微调实现对齐;RRHF通过排名损失实现人类偏好对齐;LIMA假设对齐主要发生在预训练阶段;DPO提出直接优化语言模型以匹配人类偏好;RAFT涉及模型的自我指令创建和自我奖励,以迭代方式提升模型能力和奖励建模效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

原文地址:大模型指令对齐训练原理

  • RLHF
    • SFT
    • RM
    • PPO
  • AIHF-based
    • RLAIF
      • 核心在于通过AI 模型监督其他 AI 模型,即在SFT阶段,从初始模型中采样,然后生成自我批评和修正,然后根据修正后的反应微调原始模型。在 RL 阶段,从微调模型中采样,使用一个模型来评估生成的样本,并从这个 AI 偏好数据集训练一个偏好模型。然后使用偏好模型作为奖励信号对 RL 进行训练
    • RR
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值