生成式奖励模型(generative reward model)的几种方法

生成式奖励模型: 不同与常见的基于BT的奖励模型,生成性的奖励模型(generative reward model)使用大模型本身的生成推理能力,进行偏好的分类计算。

  • Beyond Scalar Reward Model: Learning Generative Judge from Preference Data
    • 2024.10
    • Con-J是一种生成性评判模型,通过让LLM生成带有理由的正负评判,利用这些对比性评判对进行DPO训练,提高了模型的可解释性和对数据偏见的鲁棒性
  • Generative Verifiers: Reward Modeling as Next-Token Prediction
    • 2024.10
    • 以SFT和CoT-SFT的方式,在prompt+response基础上添加如“Is the answer correct (Yes/No)?”的问题片段,然后以next-token prediction的推理方式,计算Yes/No的概率值,作为奖励值
  • Generative Reward Models
    • 2024.10
    • 论文提出了GenRM和CoT-GenRM。GenRM使用”下一个token预测“的方式,计算偏好选项的概率。相比传统添加value header的方法,GenRM未改变模型结构,而是以大模型自生成的方式。
    • GenRM以DPO方法进行训练。CoT-GenRM是在推理出偏好选项之前,先生成偏好对比的思维链依据。
  • Direct Judgement Preference Optimization
    • 2024.9
    • 通过结合正面和负面的偏好数据优化生成型评估模型的评估能力
    • 三种训练任务:Chain-of-Thought Critique:通过逐步推理来生成详细的语言反馈和最终判断;Standard Judgement:仅生成最终判断,剔除语言反馈,以提供更直接的监督信号;Response Deduction:通过模型的评估推断原始的模型输出,以加深对高质量和低质量响应的理解
    • 综合采用DPO和SFT损失函数,在构造数据时,利用强大的教师模型生成高质量的偏好数据,并使用弱模型生成负例
  • Critique-out-Loud Reward Models
    • 2024.8
    • 提出了CLoud,首先训练模型生成回复的评论信息,然后将prompt,response,回复的评论信息作为输入,输出reward value

点击查看我的更多AI学习笔记github

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值