本文是LLM系列文章,针对《Proxy-RLHF: Decoupling Generation and Alignment in Large Language Model with Proxy》的翻译。
摘要
从人类反馈中强化学习(RLHF)是确保大型语言模型(LLM)与人类价值观一致的主流方法。然而,现有的RLHF方法需要高计算成本,一个主要原因是RLHF同时将生成和对齐任务分配给LLM。在本文中,我们介绍了Proxy RLHF,它将LLM的生成和对齐过程解耦,以低得多的计算成本实现与人类价值观的对齐。我们从为对齐过程设计的一种新的马尔可夫决策过程(MDP)开始,并使用强化学习(RL)来训练一个简化的代理模型,该模型在不改变LLM本身的情况下监督LLM的token生成。实验表明,我们的方法仅与其他方法的1%的训练参数实现了可比的对准水平。
1 引言
2 代理-RLHF
3 实验
4 相关工作
5 结论
在本文中,我们介绍了代理模型,该模型将LLM中的生成和对齐过程解耦,使用额外的轻量级代理模型来指导