
大模型后训练
文章平均质量分 96
FesianXu
腾讯-微信事业群-高级算法工程师, 百度-搜索策略部-前高级算法工程师。 主要从事多模态检索、视频检索、信息检索,大模型落地应用等领域工作。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大模型偏好对齐中的DPO和PPO方法
本文探讨了大语言模型(LLM)训练中的偏好对齐方法,重点介绍了直接偏好优化(DPO)和近端策略优化(PPO)两种方法。偏好对齐通过对比正负样本(如奖励模型筛选或人工标注)优化模型回答质量,避免仅依赖行为模拟(SFT)导致的泛化不足问题。DPO通过引入初始模型约束和Bradley-Terry偏好模型,稳定训练过程并防止奖励劫持。实验表明,无约束优化易生成无意义回答,而DPO结合KL散度约束能有效提升回答质量。文章还提供了DPO的代码示例,强调对比式对齐通过显式划分回答空间,增强模型对生成内容的判别能力。原创 2025-09-13 01:35:00 · 838 阅读 · 0 评论 -
BoNBoN——结合行为模仿和偏好对齐进行Best-of-N对齐的方法
BoNBoN方法,结合行为模仿与偏好对齐,利用Best-of-N采样结果进行模型蒸馏。实验表明,该方法在KL约束下实现渐进最优策略,以更小的模型偏离取得更高胜率,性能优于传统RLHF和DPO基线。原创 2025-03-20 20:36:07 · 1165 阅读 · 0 评论