北大&阿里最新LLM偏好学习/反馈学习论文综述

《Towards a Unified View of Preference Learning for Large Language Models: A Survey》

链接:https://arxiv.org/pdf/2409.02795

github:https://github.com/kbsdjames/awesome-LLM-preference-learning

摘要

  • 大型语言模型(LLMs)展现出强大的能力,但要实现与人类偏好的对齐,往往需要少量数据来有效提升性能。
  • 研究领域分散,方法复杂,不同方法间的关系尚未充分探索。
  • 本文提出了一个统一框架,将偏好学习策略分解为模型、数据、反馈和算法四个组成部分,以促进对现有算法的深入理解并探索不同策略的协同优势。

内容概述

  • 引言:介绍了LLMs的能力和偏好对齐的必要性。
  • 定义和公式化:定义了偏好学习的目标和过程。
  • 统一视角:提出了一个统一的框架,将偏好学习分解为数据-反馈信号-反馈优化-评估四个组成部分。
  • 并对目前的反馈偏好学习进行了系统的总结归纳
  • 偏好数据:讨论了在线(on-policy)和离线(off-policy)数据收集方法。
    • 偏好数据的收集被分为两大类:在线(On-policy)数据收集离线(Off-policy)数据收集。下面详细介绍这两种数据收集方法:

    • 在线(On-policy)数据收集

      在线数据收集指的是直接从语言模型本身实时生成数据。这种方法类似于在线强化学习中的策略,其中模型通过与环境的实时交互来收集数据。具体步骤包括:

      • 采样策略:使用不同的采样策略(如Top-K/Nucleus Sampling、Beam Search、Monte Carlo Tree Search等)来生成多样化的数据。
      • 环境反馈:模型生成的数据会实时与环境(如用户或其他评估系统)交互,以获得关于生成数据的偏好反馈。
      • 实时更新:根据环境的反馈,模型可以实时更新其参数,以更好地符合用户的偏好。
    • 离线(Off-policy)数据收集

      离线数据收集则是在模型训练过程之外独立进行的,通常使用预先收集好的数据集,或者利用初始模型生成的数据。这种方法不依赖于模型的实时反馈,而是使用已有的数据集进行训练。具体步骤包括:

      • 人类标注数据:从人类标注者处获取数据,这些数据集通常包含了问题和对应的偏好标签。
      • 利用高级LLMs生成数据:使用更高级的语言模型来模拟人类偏好,生成大量的偏好数据。
      • 数据集构建:通过上述两种方式,构建包含丰富偏好信息的数据集,这些数据集可以在模型训练前准备好,用于离线训练。
    • 具体实例

      • 人类标注数据:例如,Webgpt、OpenAI的Human Preferences、HH-RLHF、SHP等数据集,它们通过人类评估员对模型生成的回答进行评分或选择,从而获得偏好数据。
      • LLM生成数据:例如,RLAIF、Open-Hermes-Preferences、ULTRAFEEDBACK、UltraChat等项目,它们利用高级语言模型生成偏好数据,这些数据可以用于训练和优化模型。
    • 通过这两种方法,研究者可以收集到反映人类偏好的数据,进而训练出更符合用户期望的语言模型。这些数据收集方法的选择取决于具体的应用场景、资源可用性以及对实时性的需求。

  • 反馈:介绍了直接反馈和基于模型的反馈,包括奖励模型、成对评分模型和LLM作为评判。
  • 算法:详细讨论了pointwise方法、pairwise对比、listwise对比和无训练对齐等算法。
    • 其中有趣的是各家loss函数的设计都很雷同,本质是ltr loss
  • 评估:探讨了基于规则的评估和基于LLM的评估方法。

未来研究方向

  • 提高偏好数据的质量和多样性。
  • 可靠的反馈和可扩展的监督。
  • 先进的偏好学习算法。
  • 更全面的LLM评估方法。

欢迎关注公众号:nlp之路,关注发送LLM,免费领取LLM电子书

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值