On the Essence and Prospect: An Investigation of Alignment Approaches for Big Models（大模型对齐）

好好好_

已于 2024-03-17 21:07:01 修改

阅读量2.1k

点赞数 17

分类专栏：论文阅读文章标签：人工智能自然语言处理 gpt 语言模型

于 2024-03-17 20:57:00 首次发布

本文链接：https://blog.csdn.net/qq_46094659/article/details/136763575

版权

大模型在人工智能领域取得了革命性的突破，但也可能带来潜在的担忧。为了解决这些问题，引入了 对齐技术以使这些模型 符合人类的偏好和价值观。尽管过去一年取得了相当大的进步，但建立最佳对齐策略仍面临各种挑战，例如 数据成本和 可扩展的监督，以及 如何对齐仍然是一个悬而未决的问题。论文全面研究了 价值调整方法。论文首先解开对齐的历史背景，追溯到 20 年代（它的起源），然后深入研究对齐的数学本质（它是什么），揭示固有的挑战。在此基础上，论文对现有的对齐方法进行了详细的调研，这些方法分为三类： 强化学习、监督微调和上下文学习，并展示它们的内在联系、优点和局限性，帮助读者更好地理解这一点研究领域。此外， 个人联盟和 多模式联盟这两个新兴主题也作为该领域的新前沿进行了讨论。论文讨论潜在的联盟范式以及它们如何应对剩余的挑战，展望未来的联盟将走向何方。

1. Introduction

大模型是在海量数据上训练并包含超过数十亿个参数的神经模型（Bommasani 等人，2021），通常包括大型语言模型（LLM）和大型多模态模型（LMM）。 LLM 通常是基于大规模 Transformer（Vaswani 等人，2017）的语言模型，并以自回归方式进行训练（Zhao 等人，2023a），例如 GPT-3（Brown 等人，2020）、PaLM（Narang 和 Chowdhery，2022）、ChatGPT（Ouyang 等人，2022）、Bard（Aydin，2023）和 LLaMA（Touvron 等人，2023a）。 LLM 的卓越能力也推动了 LMM 的开发，即能够处理图像（视觉）和自然语言文本（语言）的模型（Dirik 和 Paul，2023），例如 PaLM-E（Driess 等人，2023）， LLaVA（Liu 等人，2023c）、DALL-E 3（Betker 等人，2023）和 Gemini（Team 等人，2023）。与小模型（Cho et al., 2014；Devlin et al., 2018）不同，大模型表现出两个独特的特征：缩放定律（Kaplan et al., 2020）阐明了随着模型规模的增长而得到的一致的性能改进，以及涌现能力（Wei et al., 2022a）表明，当模型规模超过一定阈值时，小模型中会出现未观察到的意想不到的新能力，例如上下文学习（Wang et al., 2023a）、指令遵循和逐步学习跨不同任务和领域的分步推理（Wei et al., 2022b），彻底改变了人工智能的作用。因此，语言模型（LM）经历了逐渐的演变，从统计语言模型（SLM）（Pauls和Klein，2011）和神经语言模型（NLM）（Cho等人，2014）开始，发展到预训练语言模型（PLM）（Devlin 等人，2018；Radford 等人，2019），并最终导致复杂LLMs的出现。遵循这样的轨迹，LLMs也通过整合大规模图像文本对和策划目标来建立这两种模式之间的内在联系，从而在预训练方面蓬勃发展（Dosovitskiy 等人，2020；Liu 等人，2021）。这些大模型已经演变成各种变体，如图1所示，深刻影响了各个行业和领域，从根本上改变了我们处理和解决现实问题的方式。

然而，每一枚硬币都有两个面。由于大模型通常是在从互联网上爬取的数据集上进行预训练的，因此它们也可能内化为风险信息并带来一些潜在危险（Tamkin 等人，2021；Bender 等人，2021；Kaddour 等人，2023），包括产生社会偏见（Sheng 等人，2019）、有毒语言和排斥（Gehman等，2020）、错误信息（Bommasani 等，2021）和社会经济危害（Weidinger 等，2022），对社会造成深远影响。此外，还观察到风险的两个特征，(1) 逆缩放：随着模型规模的增加，某些风险不仅可能持续存在，甚至会恶化（McKenzie et al., 2023），(2) 紧急风险：会出现或出现看不见的风险。值得注意的是，现有的模型被更大的模型显着放大（Wei 等人，2022a），使得先前建立的针对特定风险的方法难以处理快速出现的潜在问题。必须高度重视此类道德和社会风险。低估这些风险可能会导致严重后果。例如，可能煽动仇恨或暴力的有毒语言、可能导致财产损失的私人数据泄露以及可能在敏感领域造成伤害的错误信息，例如不准确的法律或医疗建议（Weidinger 等，2021）。
在这里插入图片描述

为了解决上述风险，研究人员开发了各种调整方法，使LLMs与人类指导、偏好和价值观保持一致（Ouyang et al., 2022；Liu et al., 2022；Rafailov et al., 2023）。在 LMM 的背景下，术语“对齐”通常指不同模态之间的对齐，例如视觉和语言（Jia 等人，2021；Radford 等人，2021）。然而，随着LLM中对齐技术的进步，它现在倾向于代表对齐LMM，使它们遵循人类指令并完成不同的任务（Liu et al., 2023c; Zhu et al., 2023; Dai et al., 2023）。对齐的概念可以追溯到诺伯特·维纳（Norbert Wiener）的表述，“我们最好确定机器的目的是我们真正想要的目的”（Wiener，1960），其定义为“A试图做 H 希望它做的事”，其中 A 和 H 是现代人工智能研究中的两个智能代理（Yudkowsky，2016；Christiano，2018）。随后，对齐的研究逐渐在强化学习（RL）领域受到重视（Hadfield-Menell et al., 2016; Everitt and Hutter, 2018; Leike et al., 2018），并在大模型时代蓬勃发展（Kenton） et al., 2021），培育多样化的生成和多模态模型，如图 1 所示。良好对齐的 AI 代理，例如LLMs，不仅具有遵循用户指令从而协助完成任务或回答问题的能力，而且还有避免生成攻击性或歧视性内容的能力（Askell 等人，2021）。相反，如前所述，失调的人工智能会导致真实性问题、错误信息、成瘾和群体极化等潜在风险（Zhuang 和 Hadfield-Menell，2020；Pan 等人，2022）。

尽管近年来取得了重大进展，但大模型对齐的研究尚处于早期阶段，理解这一主题仍然存在许多含糊之处和困难。论文认识到对齐的重要性，致力于对现有对齐方法进行全面调查和分析，以促进人类与人工智能共生的未来。论文的范围包括 i) 介绍历史并阐述对齐的本质（第 2 节），ii) 回顾现有方法并分析其优点、缺点和联系（第 3 节），以及 iii) 讨论未来的挑战和研究方向（第 4 节）
在这里插入图片描述

2. 对齐解密

2.1 对齐的发展轨迹

近年来，随着基于聊天的LLMs的快速发展（OpenAI, 2022; Touvron et al., 2023b; OpenAI, 2023; Team et al., 2023），对齐技术越来越受到人们的关注。虽然LLM对齐（Kenton et al., 2021）是一项相对较新的任务，但价值对齐的思想和概念经历了长期的发展和演变，最早可以追溯到科幻小说中关于机器人威胁的讨论。一个世纪前，如图2所示。本文将对齐的发展历史分为四个阶段。第一阶段（19201960）涉及科幻小说中对机器人对人类社会影响的早期关注，可以追溯到1920年的戏剧《R.U.R.》。（Capek，1920）首次将“机器人”一词引入英语。随后阿西莫夫在他的故事中提出了机器人三定律（Asimov，1942），这可以被视为最早的人工智能价值原则。
第二阶段（1960-2008），控制论之父诺伯特·维纳（Norbert Wiener）第一个讨论了限制机器固有目的的必要性，他说：“我们最好确定机器的目的是机器的目的。”我们真正渴望的目的”（Wiener，1960）。这被认为是对价值一致性的最早描述之一，标志着机器伦理和风险正式进入科学家视野并从跨学科角度蓬勃发展的时刻，而不仅仅是一个科幻小说主题。这一时期，人们认真讨论了人工智能（超智能机器）的潜在危险（Good，1970），并相继提出了机器伦理学（Waldrop，1987）和通用超级智能（Bostrom，2003）的概念，凸显了向机器灌输适当价值观的重要性。
第三阶段（2008-2021）始于神经网络的兴起。 AAAI 发起了一项研究，评估人工智能的长期社会影响，涉及人类控制丧失、基本社会经济、法律和道德挑战（Horvitz 和 Selman，2009）。这意味着人工智能安全和道德已成为关键的技术挑战，需要人工智能研究人员积极参与。然后，引入了“人工智能安全工程”一词（Yampolskiy，2012）。首次正式提出人工智能与人类利益/价值观相一致的主题（Soares and Fallenstein, 2014; Russell et al., 2015），并在《Asilomar AI 原则》中强调了价值一致性（Asilomar, 2017）。
在这里插入图片描述

第四阶段（2021年-当前）的阶段。受益于 2018 年开始的 LM 预训练范式（Devlin et al., 2018），语言模型已经朝着更大、更通用、更基础的方向发展（Brown et al., 2020），但也带来了许多风险（Bommasani 等人，2021）在第 2 节中讨论。 1. DeepMind第一个将LLM视为一种智能体，并讨论了它们的对齐问题（Kenton et al., 2021），标志着进入了第四阶段，大模型的宏大时代。这一阶段见证了众多在对齐上蓬勃发展的模型的出现，但也提出了开放的挑战（Bowman et al., 2022; Casper et al., 2023），开启了一个具有潜力的新兴领域。

2.2 对齐形式化

尽管在LLM对齐方面开展了一系列工作，如图3所示，但仍然缺乏对其定义、本质和方法论的深入探索。由于价值对齐最初在强化学习中使用（Hadfield-Menell 等人，2016；Everitt 和 Hutter，2018），论文考虑预期效用形式化：
在这里插入图片描述
这是决策论角度的一种形式（Carroll，2018）。更严格的要求是 $U_H = U_A$ ，然后错位由 $\underset{\mathbf{y}}{\operatorname*{\mathbb{E}}}|U_{\mathcal{H}}(\mathbf{y})-U_{\mathcal{A}}(\mathbf{y})|.$ 定义。回想一下第 2 节中对齐的描述。 1，“A正在尝试做H想要它做的事情”，那么“想要”可以通过作为一种价值的效用函数之间的一致性来体现。最小化方程的方法。（1）可以进一步分为两条线（Carroll，2018；Leike et al.，2018）：
价值学习这条线的目的是直接学习一个奖励函数来代表我们的意图和偏好（Mnih et al., 2015; Hadfield-Menell et al., 2016; Ouyang et al., 2022），通常可以形式化为： $\phi^*=\underset{\phi}{\operatorname*{argmin}}\mathbb{E}_{\mathbf{y},r^*\sim D(\mathbf{y},r^*)}[(r^*-R_\phi(\mathbf{y}))^2],(2)$
其中 D 是每个动作 y 及其真实奖励 r* 的训练集，Rφ 是由 φ 参数化的学习奖励函数。当我们有真实动作 y* 而不是奖励 r* 时，我们还可以通过最小化来间接学习比其他动作更高的奖励 y*： $\mathbb{E}_{\mathbf{y}^*\sim D(\mathbf{y}^*),\mathbf{y}\sim p(\mathbf{y})}[\max(0,\alpha+R_\phi(\mathbf{y})-R_\phi(\mathbf{y}^*))]$ ，其中 p(y) 是动作分布，α 是超参数。深度Q网络、逆强化学习和人类偏好学习都可以用等式1的形式表示。（2）。一旦获得 Rφ*，随后就可以用它来训练具有标准 RL 技术的智能体。模仿学习这一系列方法不是学习奖励函数，而是训练智能体模仿一致的动作，隐式地代表“我们所看重的东西”（Torabi et al., 2018）。定义一个真实策略 π(y) 和一个由 θ 参数化的学习策略 πθ（代理），然后我们可以最小化两个策略之间的 f 散度 (Go et al., 2023)： $\theta^{*}=\mathop{\mathrm{argmin}}_{\theta}D_{f}[\pi(\mathbf{y})||\pi_{\theta}(\mathbf{y})]$ ，其中 π(y) 是由训练集形成的经验分布。使用 KL 散度，Eq. (3)变为传统的交叉熵损失。该方法直接学习代理产生符合人类偏好/价值观的行为。在sec. 3，论文将演示LLM对齐的每种流行范式如何与这两条线连接起来。

2.3 对齐的目标

在深入探讨如何对齐之前，论文首先简单介绍一下对齐的内容。对一致性目标的讨论源于规范问题，即如何定义我们想要从人工智能中获得什么的目的？（Leike et al., 2018），可以从两个方面考虑（Gabriel, 2020）：（1）规范方面：将什么目标编码到人工智能中，（2）技术方面：如何形式化和建模目标。未能实现目标可能会导致人工智能寻找漏洞并以意想不到的方式实现目标，这被称为规范游戏（Skalse et al., 2022）。从前者来看，一致性目标的范围从指示、意图、偏好，到兴趣、价值观等（Gabriel，2020）。另一个流行的目标是“有益、诚实、无害”(HHH) 原则（Askell 等人，2021）。然而，大多数工作（Ouyang et al., 2022; Rafailov et al., 2023）强调对齐方法，而忽略了对什么目标最合适的分析。

协调一致的模型能够生成与这些确定的目标相符的内容。然而，由于评估者追求不正确的目标、有问题的奖励模型或政策，可能会出现不一致问题（Casper 等人，2023）。不一致的模型可能会无意中导致意外或不良的伤害和后果。例如，这些模型可能会产生错误信息或歧视性和有害的内容，从而可能被恶意使用（Brundage 等，2018）。此外，即使模型相当一致，仍然可能表现出某些缺点。它们可能会产生幻觉（Ji et al., 2023）、传播偏见（Santurkar et al., 2023），并且容易受到越狱等对抗性攻击（Li et al., 2023b）。

总体而言，实现一致性需要仔细考虑它们应符合的各种目标，解决潜在的不一致问题，并减轻这些模型可能具有的限制和漏洞。

2.4 数据集和对齐的评估

数据集：为了使人工智能与人类保持一致，已经提出了几种对齐数据集。一些研究利用人工数据集来微调模型，例如 Dolly (Conover et al., 2023)、OpenAssistant (Köpf et al., 2023), 2023) 和 LIMA (Zhou et al., 2023)。尽管人工制作的数据集提供了可以有效地将模型与人类保持一致的高质量数据，但它们需要大量的人力和资源。自指导（Wang et al., 2023d）采用半自动化流程，利用最少的人类标记的数据来构建遵循数据集的指令。 Alpaca 还利用 Self-Instruct 方法来微调 LLaMA。此外，Baize（Xu et al., 2023a）利用 ChatGPT 通过与自身聊天来自动生成对话格式的指令和响应。
在这里插入图片描述
评估：一致性的评估是指评估人工智能的行为是否符合人类意图，即公式（1）中的L。为了评估大模型的对齐，已经提出了许多对齐基准和方法。早期基准评估人工智能在特定风险标准上的表现，例如毒性、偏见和错误信息（Gehman 等人，2020；Lin 等人，2021b，白等人 2022a) 引入了一个包含人类偏好数据的数据集，用于评估人工智能的有用性和无害性。 TruthfulQA（Lin 等人，2021b）是一个基准，旨在通过识别虚假信息来评估模型的真实性。 NLP 世代有许多评估指标可用于对齐评估，例如 BLEU (Papineni et al., 2002)、ROUGE (Lin, 2004)、BERTScore (Zhang et al., 2019)。这种基于相似性的测量很常用，但需要真实参考，并且与人类判断的相关性较低。因此，还涉及到人工评估，但比较耗时且成本较高。之前的工作（Wang 等人，2023d；Wu 等人，2023a）提出了一种序数分类设置，其中人类注释者根据四个级别的响应（可接受、小错误、主要错误和不可接受）进行注释。为了有效评估多个LLMs，Taori 等人 (2023) 提出了一个成对评估框架，Dettmers 等人 (2023) 引入了 Elo 评级系统。最近的研究工作涉及LLMs参与文本评估的过程。 Chiang 和 Lee (2023) 验证了应用LLMs进行自然语言生成 (NLG) 的可行性。相当多的工作致力于使用开源或专有模型评估输出（Liu et al., 2023d; Wang et al., 2023c; Yuan et al., 2023; Zha et al., 2023）。尽管LLMs在自动评估方面取得了令人印象深刻的效率和一致性，但它可能会受到固有偏差的影响（Chen 等人，2023b；Wu 和 Aji，2023）。因此，有可能设计一个结合自动评估和人工评估优点的框架。

2.5 对齐的挑战

为了实现第 2 节中定义的对齐。 1、仍然存在各种研究挑战（RC）需要解决。这些挑战包括但不限于：

RC1：对齐功效。现有对准方法的性能在很大程度上受到限制。如何使人工智能更准确地与预期目标保持一致，而不引入无意的偏见仍然是一个悬而未决的问题
RC2：对齐概括。协调目标可能会随着时间、文化和背景的不同而变化。让学习到的人工智能在部署到不同场景时保持一致至关重要（de Font-Reaulx，2022）
RC3：数据和培训效率。训练对齐模型通常需要大量手动注释数据，这非常耗时或费力，无法跟上人工智能的快速发展步伐（Casper et al., 2023）。
RC4：对齐的可解释性。理解和解释人工智能的协调过程和基于价值的决策对于人工智能的信任和进一步改进至关重要，这被视为“最大的开放问题”之一（Ouyang et al., 2022）。
RC5：调整税。与原始人工智能相比，对齐会损害人工智能的能力（Askell 等人，2021）。最小化这种影响或找到更好的权衡是不可避免的问题。
RC6：可扩展的监督（Bowman 等人，2022）。当人工智能模型变得比人类更强大（超级智能）时，如何有效地监管和控制它们以防止出现不良结果是具有挑战性的。
RC7：规格游戏。对齐目标通常被指定为近似代理目标，比实际目标简单得多，从而导致意想不到的潜在有害副作用（Skalse 等人，2022）。

此外，制定有效的评估方法对于协调也至关重要。这些挑战仍未解决，需要社区更深入的探索。

3 对齐方法

LLM 的对齐方法主要分为三种范式：基于 RL 的对齐（第 3.1 节）、基于 SFT 的对齐（第 3.2 节）和上下文对齐（第 3.3 节）。在本节中，论文将介绍和讨论它们中的每一个，以及个性化对齐（第 3.5 节）和 LMM 对齐（第 3.4 节），并建立它们与第 3.5 节中介绍的定义的联系。 2. 附录图7