LLM偏好对齐
文章平均质量分 94
FesianXu
2026-至今,阿里巴巴-淘宝-算法专家
2024-2026,腾讯-微信事业群-前高级算法工程师
2021-2024,百度-搜索策略部-前高级算法工程师
工作方向主要专注在多模态检索、视频检索、信息检索,AI搜索及其大模型落地应用等领域。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
生成式奖励模型需考虑对齐推理过程
生成式奖励模型需重视推理过程对齐 近期研究表明,生成式奖励模型(GenRM)的性能评估不应仅关注结果准确率(OA),还需考察其推理过程与人类判断的一致性(RC)。研究发现,部分模型虽能输出正确结果,却依赖表面特征或错误推理(欺诈性对齐),导致RC指标偏低。千问团队提出采用元裁判方法,将人工评估理由原子化后与模型推理对比,计算推理一致性RC。实验显示,主流大模型的RC普遍低于0.4,表明当前GenRM在逻辑合理性上仍有较大提升空间。该研究强调,训练和评估GenRM时应协同优化OA与RC指标,避免仅追求结果正确原创 2026-02-27 11:11:01 · 729 阅读 · 0 评论 -
大模型偏好对齐中的DPO和PPO方法
本文探讨了大语言模型(LLM)训练中的偏好对齐方法,重点介绍了直接偏好优化(DPO)和近端策略优化(PPO)两种方法。偏好对齐通过对比正负样本(如奖励模型筛选或人工标注)优化模型回答质量,避免仅依赖行为模拟(SFT)导致的泛化不足问题。DPO通过引入初始模型约束和Bradley-Terry偏好模型,稳定训练过程并防止奖励劫持。实验表明,无约束优化易生成无意义回答,而DPO结合KL散度约束能有效提升回答质量。文章还提供了DPO的代码示例,强调对比式对齐通过显式划分回答空间,增强模型对生成内容的判别能力。原创 2025-09-13 01:35:00 · 1243 阅读 · 0 评论 -
BoNBoN——结合行为模仿和偏好对齐进行Best-of-N对齐的方法
BoNBoN方法,结合行为模仿与偏好对齐,利用Best-of-N采样结果进行模型蒸馏。实验表明,该方法在KL约束下实现渐进最优策略,以更小的模型偏离取得更高胜率,性能优于传统RLHF和DPO基线。原创 2025-03-20 20:36:07 · 1335 阅读 · 0 评论 -
RLHF中的on-policy和off-policy的区别
On-policy方法(如PPO)在LLM和RLHF中主要用于需要实时生成文本的场景,虽然训练稳定,但采样效率较低Off-policy方法(如DPO)则更适合利用历史数据进行高效训练,尤其在大规模数据和异步训练场景中表现出色选择哪种方法取决于具体的应用场景和资源限制。原创 2025-02-07 18:56:43 · 1806 阅读 · 0 评论 -
奖励模型中的尺度扩展定律和奖励劫持
最近在考古一些LLM的经典老论文,其中有一篇是OpenAI于ICML 2023年发表的文章,讨论了在奖励模型(Reward Model)中的尺度扩展规律(Scaling Laws),也即是通过扩展奖励模型的模型大小、数据量等去提升奖励模型的能力...原创 2025-02-06 12:25:34 · 1368 阅读 · 0 评论
分享