生成式奖励模型（generative reward model）的几种方法

xueyongfu

已于 2024-11-23 18:30:18 修改

阅读量979

点赞数 4

文章标签：人工智能机器学习

于 2024-11-22 12:07:46 首次发布

本文链接：https://blog.csdn.net/fjfdg666/article/details/143969076

版权

生成式奖励模型： 不同与常见的基于BT的奖励模型，生成性的奖励模型（generative reward model）使用大模型本身的生成推理能力，进行偏好的分类计算。

Beyond Scalar Reward Model: Learning Generative Judge from Preference Data
- 2024.10
- Con-J是一种生成性评判模型，通过让LLM生成带有理由的正负评判，利用这些对比性评判对进行DPO训练，提高了模型的可解释性和对数据偏见的鲁棒性
Generative Verifiers: Reward Modeling as Next-Token Prediction
- 2024.10
- 以SFT和CoT-SFT的方式，在prompt+response基础上添加如“Is the answer correct (Yes/No)?”的问题片段，然后以next-token prediction的推理方式，计算Yes/No的概率值，作为奖励值
Generative Reward Models
- 2024.10
- 论文提出了GenRM和CoT-GenRM。GenRM使用”下一个token预测“的方式，计算偏好选项的概率。相比传统添加value header的方法，GenRM未改变模型结构，而是以大模型自生成的方式。
- GenRM以DPO方法进行训练。CoT-GenRM是在推理出偏好选项之前，先生成偏好对比的思维链依据。
Direct Judgement Preference Optimization
- 2024.9
- 通过结合正面和负面的偏好数据优化生成型评估模型的评估能力
- 三种训练任务：Chain-of-Thought Critique：通过逐步推理来生成详细的语言反馈和最终判断；Standard Judgement：仅生成最终判断，剔除语言反馈，以提供更直接的监督信号；Response Deduction：通过模型的评估推断原始的模型输出，以加深对高质量和低质量响应的理解
- 综合采用DPO和SFT损失函数，在构造数据时，利用强大的教师模型生成高质量的偏好数据，并使用弱模型生成负例
Critique-out-Loud Reward Models
- 2024.8
- 提出了CLoud，首先训练模型生成回复的评论信息，然后将prompt，response，回复的评论信息作为输入，输出reward value

点击查看我的更多AI学习笔记github