北大&阿里最新LLM偏好学习/反馈学习论文综述_towards a unified view of preference learning for -CSDN博客

本文链接：https://blog.csdn.net/jude2013/article/details/142092334

《Towards a Unified View of Preference Learning for Large Language Models: A Survey》

链接：https://arxiv.org/pdf/2409.02795

github：https://github.com/kbsdjames/awesome-LLM-preference-learning

摘要

大型语言模型（LLMs）展现出强大的能力，但要实现与人类偏好的对齐，往往需要少量数据来有效提升性能。
研究领域分散，方法复杂，不同方法间的关系尚未充分探索。
本文提出了一个统一框架，将偏好学习策略分解为模型、数据、反馈和算法四个组成部分，以促进对现有算法的深入理解并探索不同策略的协同优势。

内容概述

引言：介绍了LLMs的能力和偏好对齐的必要性。
定义和公式化：定义了偏好学习的目标和过程。
统一视角：提出了一个统一的框架，将偏好学习分解为数据-反馈信号-反馈优化-评估四个组成部分。
并对目前的反馈偏好学习进行了系统的总结归纳
偏好数据：讨论了在线（on-policy）和离线（off-policy）数据收集方法。
- 偏好数据的收集被分为两大类：在线（On-policy）数据收集和离线（Off-policy）数据收集。下面详细介绍这两种数据收集方法：
- 在线（On-policy）数据收集
  
  在线数据收集指的是直接从语言模型本身实时生成数据。这种方法类似于在线强化学习中的策略，其中模型通过与环境的实时交互来收集数据。具体步骤包括：
  - 采样策略：使用不同的采样策略（如Top-K/Nucleus Sampling、Beam Search、Monte Carlo Tree Search等）来生成多样化的数据。
  - 环境反馈：模型生成的数据会实时与环境（如用户或其他评估系统）交互，以获得关于生成数据的偏好反馈。
  - 实时更新：根据环境的反馈，模型可以实时更新其参数，以更好地符合用户的偏好。
- 离线（Off-policy）数据收集
  
  离线数据收集则是在模型训练过程之外独立进行的，通常使用预先收集好的数据集，或者利用初始模型生成的数据。这种方法不依赖于模型的实时反馈，而是使用已有的数据集进行训练。具体步骤包括：
  - 人类标注数据：从人类标注者处获取数据，这些数据集通常包含了问题和对应的偏好标签。
  - 利用高级LLMs生成数据：使用更高级的语言模型来模拟人类偏好，生成大量的偏好数据。
  - 数据集构建：通过上述两种方式，构建包含丰富偏好信息的数据集，这些数据集可以在模型训练前准备好，用于离线训练。
- 具体实例
  - 人类标注数据：例如，Webgpt、OpenAI的Human Preferences、HH-RLHF、SHP等数据集，它们通过人类评估员对模型生成的回答进行评分或选择，从而获得偏好数据。
  - LLM生成数据：例如，RLAIF、Open-Hermes-Preferences、ULTRAFEEDBACK、UltraChat等项目，它们利用高级语言模型生成偏好数据，这些数据可以用于训练和优化模型。
- 通过这两种方法，研究者可以收集到反映人类偏好的数据，进而训练出更符合用户期望的语言模型。这些数据收集方法的选择取决于具体的应用场景、资源可用性以及对实时性的需求。
反馈：介绍了直接反馈和基于模型的反馈，包括奖励模型、成对评分模型和LLM作为评判。
算法：详细讨论了pointwise方法、pairwise对比、listwise对比和无训练对齐等算法。
- 其中有趣的是各家loss函数的设计都很雷同，本质是ltr loss
评估：探讨了基于规则的评估和基于LLM的评估方法。