本文是LLM系列文章,针对《Active Preference Learning for Large Language Models》的翻译。
摘要
随着大型语言模型(LLM)的能力越来越强,用于与人类意图保持一致的微调技术变得越来越重要。调整这些模型的一个关键考虑因素是如何最有效地使用人力资源,或者在LLM本身被用作预言机的情况下对资源进行建模。从人类或人工智能偏好进行强化学习(RLHF/RLAIF)是这种技术最突出的例子,但它很复杂,而且往往不稳定。直接偏好优化(DPO)最近被提出作为一种更简单、更稳定的替代方案。在这项工作中,我们为DPO开发了一种主动学习策略,以更好地利用偏好标签。基于语言模型的预测熵和DPO优化的隐含偏好模型的确定性度量,我们提出了一个实用的提示/完成对获取函数。我们展示了我们的方法如何提高学习率和对成对偏好数据进行微调的最终性能。
1 引言
2 直接偏好优化
3 主动偏好学习
4 相关工作
5 实验
6 结论与讨论
我们已经展示了一种简单有效的方法,可以改进oracle标签预算用于偏好微调LLM的