论文浅尝 | 大型语言模型的人类对齐

最新推荐文章于 2025-05-18 20:17:36 发布

开放知识图谱

最新推荐文章于 2025-05-18 20:17:36 发布

阅读量1.2k

点赞数 10

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/136002943

版权

这篇综述探讨了如何将大型语言模型（LLMs）与人类期望对齐，涉及数据收集、训练方法、模型评估和未来研究方向。数据收集包括使用NLP基准、人工注释和LLMs生成指令。训练方法涵盖有监督微调、在线和离线人类偏好训练。评估方法包括多方面，如闭集和开放测试集。未来研究方向包括细粒度指令数据管理和非英语语言的LLM对齐等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

笔记整理：方润楠、习泽坤，浙江大学硕士，研究方向为自然语言处理

链接：https://arxiv.org/abs/2307.12966

概述

这份综述探讨了针对大型语言模型（LLMs）的人类期望进行对齐的技术，涵盖了以下几个方面：1. 数据收集：有效收集LLMs对齐所需的高质量指令的方法，包括使用NLP基准、人工注释和利用强大的LLMs。2. 训练方法：对LLMs对齐采用的主要训练方法进行详细审查。涵盖了有监督微调、在线和离线人类偏好训练以及参数高效训练机制。3. 模型评估：评估人类对齐LLMs效果的方法，呈现了多方面的评估方法。综合总结并梳理了研究发现，为领域内对理解和推进LLMs对齐以更好地适应人类导向任务和期望感兴趣的人提供了有价值的资源，同时也指出了未来几个有前景的研究方向。

对齐数据集

将LLMs与人类期望对齐需要收集高质量的训练数据，这些数据真实地反映了人类的需求和期望。在本调研中，我们将指令概念化为Ik = (xk, yk)，其中xk表示指令输入，yk表示相应的回复。这些数据可以来自多种来源，包括人工生成的指令和由强大的LLMs生成的指令。在本节中，我们总结了这些指令生成方法，并介绍了构建多样化训练指令组合的有效策略。

人类指令构造

一个很容易想到的方法就是将现有的自然语言处理基准转化为自然语言指令。各种各样的基准代表了各种多样且异构的自然语言处理任务，如对话、推理任务和编码任务，都统一在语言指令的框架下。在每个NLP基准中，让注释员创建了几个自然语言模板，将所有输入数据融入到一个连续的文本中。用来增强LLMs在训练任务的多任务学习能力，提高对未知任务的泛化能力。

虽然由NLP基准构建数据集很轻松，但是由于许多数据集专注于小而特定的数据集，这意味着产生的指令适用范围相对较窄，具有局限性。因此，它们可能无法满足现实世界应用的复杂需求，例如进行动态人类对话。为了应对上述问题，可以通过有意识的手动注释来构建指令。如何有效设计一个人机协作的注释框架成为关键问题。

例如Kopf^[¹^]（2023）等人使用超过13,000名国际标注者构建了包含超过10,000个对话的OpenAssistant语料库。注释过程包括a）为对话编写初始提示；b）以助理或用户身份回复；c）对对话质量进行排名，以明确提供人类偏好。因此，这个语料库可以用于LLMs的SFT和人类偏好对齐训练。Zhang^[²^]等人从现有的英语指令数据集构建了高质量的中文指令。他们首先将英语指令翻译成中文，然后验证这些翻译是否可用。最后，他们雇佣标注者将指令进行纠正和重新组织，以选择的语料库中的任务描述、输入、输出格式。

强语言模型构造

自构建利用了大语言模型强大的in-context learning能力，从人工注释的指令数据集中生成大量涵盖了各种不同的主题和任务类型的指令，自动生成的指令随后经过如下图所示的质量控制筛选流程，提高指令质量，这个迭代过程将持续进行，直到达到所需的数据量。

在提高输入质量模块中，主要目标是提高输入指令的多样性，例如Yu^[³^]（2023）等人将将元信息（例如长度、主题、风格）添加到数据生成prompt中可以有效地消除生成的合成数据中的偏见，并提高这些合成数据的多样性。

在提高输出质量模块中，需要根据不同的情况选择不同方式提高输出质量，总体上可以分为以下四类：Reasoning-Provoking Conditions，Hand-crafted Guiding Principles，Role-playing Conditions，Difficulty-monitoring Conditions。

在之前的部分中，我们主要关注收集合成的单轮指令。然而，与人类良好对齐的LLMs应该能够在基于对话的环境中与用户进行交互。为了实现这一目标，一些研究工作尝试从强语言模型中收集合成的多轮指令。在将LLaMA与人类对齐时，Vicuna利用了来自ShareGPT的指令。Li^[⁴^]等人（2023）提出了一个名为CAMEL的“角色扮演”框架，其中人类标注者首先提供一个主题，然后分别激发LLMs成为“AI用户”和“AI助手”来讨论这个主题。

上述生成的指令或对话大多是基于英语的。为了将LLMs与使用其他语言的人类对齐，将现有的英语资源扩展到多语种资源是迫切且必要的。一个直接的想法是将指令的输入和输出翻译成目标语言。