https://arxiv.org/pdf/2403.04283
https://www.doubao.com/chat/3873465996827394
Proxy-RLHF: Decoupling Generation and Alignment in Large Language Model with Proxy
速览
这篇论文主要介绍了一种名为Proxy-RLHF的新方法,旨在降低大语言模型(LLMs)对齐人类价值观的计算成本。以下是核心内容的通俗解读:
1. 背景:传统方法的痛点
- RLHF的问题:现有的主流方法RLHF(基于人类反馈的强化学习)需要大语言模型同时负责“生成内容”和“对齐人类价值观”,导致计算成本极高。
- 例如,RLHF需要训练4个大型模型(策略、奖励、价值、参考模型),每个都有数十亿参数,占用大量GPU内存和计算资源。
2. 核心创新:分离生成与对齐
<