On the Essence and Prospect: An Investigation of Alignment Approaches for Big Models(大模型对齐)


大模型在人工智能领域取得了革命性的突破,但也可能带来潜在的担忧。为了解决这些问题,引入了 对齐技术以使这些模型 符合人类的偏好和价值观。尽管过去一年取得了相当大的进步,但建立最佳对齐策略仍面临各种挑战,例如 数据成本可扩展的监督,以及 如何对齐仍然是一个悬而未决的问题。论文全面研究了 价值调整方法。论文首先解开对齐的历史背景,追溯到 20 年代(它的起源),然后深入研究对齐的数学本质(它是什么),揭示固有的挑战。在此基础上,论文对现有的对齐方法进行了详细的调研,这些方法分为三类: 强化学习、监督微调和上下文学习,并展示它们的内在联系、优点和局限性,帮助读者更好地理解这一点研究领域。此外, 个人联盟多模式联盟这两个新兴主题也作为该领域的新前沿进行了讨论。论文讨论潜在的联盟范式以及它们如何应对剩余的挑战,展望未来的联盟将走向何方。

1. Introduction

大模型是在海量数据上训练并包含超过数十亿个参数的神经模型(Bommasani 等人,2021),通常包括大型语言模型(LLM)和大型多模态模型(LMM)。 LLM 通常是基于大规模 Transformer(Vaswani 等人,2017)的语言模型,并以自回归方式进行训练(Zhao 等人,2023a),例如 GPT-3(Brown 等人,2020)、PaLM(Narang 和 Chowdhery,2022)、ChatGPT(Ouyang 等人,2022)、Bard(Aydin,2023)和 LLaMA(Touvron 等人,2023a)。 LLM 的卓越能力也推动了 LMM 的开发,即能够处理图像(视觉)和自然语言文本(语言)的模型(Dirik 和 Paul,2023),例如 PaLM-E(Driess 等人,2023), LLaVA(Liu 等人,2023c)、DALL-E 3(Betker 等人,2023)和 Gemini(Team 等人,2023)。与小模型(Cho et al., 2014;Devlin et al., 2018)不同,大模型表现出两个独特的特征:缩放定律(Kaplan et al., 2020)阐明了随着模型规模的增长而得到的一致的性能改进,以及涌现能力(Wei et al., 2022a)表明,当模型规模超过一定阈值时,小模型中会出现未观察到的意想不到的新能力,例如上下文学习(Wang et al., 2023a)、指令遵循和逐步学习跨不同任务和领域的分步推理(Wei et al., 2022b),彻底改变了人工智能的作用。因此,语言模型(LM)经历了逐渐的演变,从统计语言模型(SLM)(Pauls和Klein,2011)和神经语言模型(NLM)(Cho等人,2014)开始,发展到预训练语言模型(PLM)(Devlin 等人,2018;Radford 等人,2019),并最终导致复杂LLMs的出现。遵循这样的轨迹,LLMs也通过整合大规模图像文本对和策划目标来建立这两种模式之间的内在联系,从而在预训练方面蓬勃发展(Dosovitskiy 等人,2020;Liu 等人,2021)。这些大模型已经演变成各种变体,如图1所示,深刻影响了各个行业和领域,从根本上改变了我们处理和解决现实问题的方式。

然而,每一枚硬币都有两个面。由于大模型通常是在从互联网上爬取的数据集上进行预训练的,因此它们也可能内化为风险信息并带来一些潜在危险(Tamkin 等人,2021;Bender 等人,2021;Kaddour 等人,2023),包括产生社会偏见(Sheng 等人,2019)、有毒语言和排斥(Gehman等,2020)、错误信息(Bommasani 等,2021)和社会经济危害(Weidinger 等,2022),对社会造成深远影响。此外,还观察到风险的两个特征,(1) 逆缩放:随着模型规模的增加,某些风险不仅可能持续存在,甚至会恶化(McKenzie et al., 2023),(2) 紧急风险:会出现或出现看不见的风险。值得注意的是,现有的模型被更大的模型显着放大(Wei 等人,2022a),使得先前建立的针对特定风险的方法难以处理快速出现的潜在问题。必须高度重视此类道德和社会风险。低估这些风险可能会导致严重后果。例如,可能煽动仇恨或暴力的有毒语言、可能导致财产损失的私人数据泄露以及可能在敏感领域造成伤害的错误信息,例如不准确的法律或医疗建议(Weidinger 等,2021)。
在这里插入图片描述

为了解决上述风险,研究人员开发了各种调整方法,使LLMs与人类指导、偏好和价值观保持一致(Ouyang et al., 2022;Liu et al., 2022;Rafailov et al., 2023)。在 LMM 的背景下,术语“对齐”通常指不同模态之间的对齐,例如视觉和语言(Jia 等人,2021;Radford 等人,2021)。然而,随着LLM中对齐技术的进步,它现在倾向于代表对齐LMM,使它们遵循人类指令并完成不同的任务(Liu et al., 2023c; Zhu et al., 2023; Dai et al., 2023) 。对齐的概念可以追溯到诺伯特·维纳(Norbert Wiener)的表述,“我们最好确定机器的目的是我们真正想要的目的”(Wiener,1960),其定义为“A试图做 H 希望它做的事”,其中 A 和 H 是现代人工智能研究中的两个智能代理(Yudkowsky,2016;Christiano,2018)。随后,对齐的研究逐渐在强化学习(RL)领域受到重视(Hadfield-Menell et al., 2016; Everitt and Hutter, 2018; Leike et al., 2018),并在大模型时代蓬勃发展(Kenton) et al., 2021),培育多样化的生成和多模态模型,如图 1 所示。良好对齐的 AI 代理,例如LLMs,不仅具有遵循用户指令从而协助完成任务或回答问题的能力,而且还有避免生成攻击性或歧视性内容的能力(Askell 等人,2021)。相反,如前所述,失调的人工智能会导致真实性问题、错误信息、成瘾和群体极化等潜在风险(Zhuang 和 Hadfield-Menell,2020;Pan 等人,2022)。

尽管近年来取得了重大进展,但大模型对齐的研究尚处于早期阶段,理解这一主题仍然存在许多含糊之处和困难。论文认识到对齐的重要性,致力于对现有对齐方法进行全面调查和分析,以促进人类与人工智能共生的未来。论文的范围包括 i) 介绍历史并阐述对齐的本质(第 2 节),ii) 回顾现有方法并分析其优点、缺点和联系(第 3 节),以及 iii) 讨论未来的挑战和研究方向(第 4 节)
在这里插入图片描述

2. 对齐解密

2.1 对齐的发展轨迹

近年来,随着基于聊天的LLMs的快速发展(OpenAI, 2022; Touvron et al., 2023b; OpenAI, 2023; Team et al., 2023),对齐技术越来越受到人们的关注。虽然LLM对齐(Kenton et al., 2021)是一项相对较新的任务,但价值对齐的思想和概念经历了长期的发展和演变,最早可以追溯到科幻小说中关于机器人威胁的讨论。一个世纪前,如图2所示。本文将对齐的发展历史分为四个阶段。第一阶段(19201960)涉及科幻小说中对机器人对人类社会影响的早期关注,可以追溯到1920年的戏剧《R.U.R.》。 (Capek,1920)首次将“机器人”一词引入英语。随后阿西莫夫在他的故事中提出了机器人三定律(Asimov,1942),这可以被视为最早的人工智能价值原则。
第二阶段(1960-2008),控制论之父诺伯特·维纳(Norbert Wiener)第一个讨论了限制机器固有目的的必要性,他说:“我们最好确定机器的目的是机器的目的。”我们真正渴望的目的”(Wiener,1960)。这被认为是对价值一致性的最早描述之一,标志着机器伦理和风险正式进入科学家视野并从跨学科角度蓬勃发展的时刻,而不仅仅是一个科幻小说主题。这一时期,人们认真讨论了人工智能(超智能机器)的潜在危险(Good,1970),并相继提出了机器伦理学(Waldrop,1987)和通用超级智能(Bostrom,2003)的概念,凸显了向机器灌输适当价值观的重要性。
第三阶段(2008-2021)始于神经网络的兴起。 AAAI 发起了一项研究,评估人工智能的长期社会影响,涉及人类控制丧失、基本社会经济、法律和道德挑战(Horvitz 和 Selman,2009)。这意味着人工智能安全和道德已成为关键的技术挑战,需要人工智能研究人员积极参与。然后,引入了“人工智能安全工程”一词(Yampolskiy,2012)。首次正式提出人工智能与人类利益/价值观相一致的主题(Soares and Fallenstein, 2014; Russell et al., 2015),并在《Asilomar AI 原则》中强调了价值一致性(Asilomar, 2017)。
在这里插入图片描述

第四阶段(2021年-当前)的阶段。受益于 2018 年开始的 LM 预训练范式(Devlin et al., 2018),语言模型已经朝着更大、更通用、更基础的方向发展(Brown et al., 2020),但也带来了许多风险(Bommasani 等人,2021)在第 2 节中讨论。 1. DeepMind第一个将LLM视为一种智能体,并讨论了它们的对齐问题(Kenton et al., 2021),标志着进入了第四阶段,大模型的宏大时代。这一阶段见证了众多在对齐上蓬勃发展的模型的出现,但也提出了开放的挑战(Bowman et al., 2022; Casper et al., 2023),开启了一个具有潜力的新兴领域。

2.2 对齐形式化

尽管在LLM对齐方面开展了一系列工作,如图3所示,但仍然缺乏对其定义、本质和方法论的深入探索。由于价值对齐最初在强化学习中使用(Hadfield-Menell 等人,2016;Everitt 和 Hutter,2018),论文考虑预期效用形式化:
在这里插入图片描述
这是决策论角度的一种形式(Carroll,2018)。更严格的要求是 U H = U A U_H = U_A UH=UA,然后错位由 E ⁡ y ∣ U H ( y ) − U A ( y ) ∣ . \underset{\mathbf{y}}{\operatorname*{\mathbb{E}}}|U_{\mathcal{H}}(\mathbf{y})-U_{\mathcal{A}}(\mathbf{y})|. yEUH(y)UA(y)∣.定义。回想一下第 2 节中对齐的描述。 1,“A正在尝试做H想要它做的事情”,那么“想要”可以通过作为一种价值的效用函数之间的一致性来体现。最小化方程的方法。 (1)可以进一步分为两条线(Carroll,2018;Leike et al.,2018):
价值学习这条线的目的是直接学习一个奖励函数来代表我们的意图和偏好(Mnih et al., 2015; Hadfield-Menell et al., 2016; Ouyang et al., 2022),通常可以形式化为: ϕ ∗ = argmin ⁡ ϕ E y , r ∗ ∼ D ( y , r ∗ ) [ ( r ∗ − R ϕ ( y ) ) 2 ] , ( 2 ) \phi^*=\underset{\phi}{\operatorname*{argmin}}\mathbb{E}_{\mathbf{y},r^*\sim D(\mathbf{y},r^*)}[(r^*-R_\phi(\mathbf{y}))^2],(2) ϕ=ϕargminEy,rD(y,r)[(rRϕ(y))2],(2)
其中 D 是每个动作 y 及其真实奖励 r* 的训练集,Rφ 是由 φ 参数化的学习奖励函数。当我们有真实动作 y* 而不是奖励 r* 时,我们还可以通过最小化来间接学习比其他动作更高的奖励 y*: E y ∗ ∼ D ( y ∗ ) , y ∼ p ( y ) [ max ⁡ ( 0 , α + R ϕ ( y ) − R ϕ ( y ∗ ) ) ] \mathbb{E}_{\mathbf{y}^*\sim D(\mathbf{y}^*),\mathbf{y}\sim p(\mathbf{y})}[\max(0,\alpha+R_\phi(\mathbf{y})-R_\phi(\mathbf{y}^*))] EyD(y),yp(y)[max(0,α+Rϕ(y)Rϕ(y))],其中 p(y) 是动作分布,α 是超参数。深度Q网络、逆强化学习和人类偏好学习都可以用等式1的形式表示。 (2)。一旦获得 Rφ*,随后就可以用它来训练具有标准 RL 技术的智能体。模仿学习这一系列方法不是学习奖励函数,而是训练智能体模仿一致的动作,隐式地代表“我们所看重的东西”(Torabi et al., 2018)。定义一个真实策略 π(y) 和一个由 θ 参数化的学习策略 πθ(代理),然后我们可以最小化两个策略之间的 f 散度 (Go et al., 2023): θ ∗ = a r g m i n θ D f [ π ( y ) ∣ ∣ π θ ( y ) ] \theta^{*}=\mathop{\mathrm{argmin}}_{\theta}D_{f}[\pi(\mathbf{y})||\pi_{\theta}(\mathbf{y})] θ=argminθDf[π(y)∣∣πθ(y)],其中 π(y) 是由训练集形成的经验分布。使用 KL 散度,Eq. (3)变为传统的交叉熵损失。该方法直接学习代理产生符合人类偏好/价值观的行为。在sec. 3,论文将演示LLM对齐的每种流行范式如何与这两条线连接起来。

2.3 对齐的目标

在深入探讨如何对齐之前,论文首先简单介绍一下对齐的内容。对一致性目标的讨论源于规范问题,即如何定义我们想要从人工智能中获得什么的目的? (Leike et al., 2018),可以从两个方面考虑(Gabriel, 2020):(1)规范方面:将什么目标编码到人工智能中,(2)技术方面:如何形式化和建模目标。未能实现目标可能会导致人工智能寻找漏洞并以意想不到的方式实现目标,这被称为规范游戏(Skalse et al., 2022)。从前者来看,一致性目标的范围从指示、意图、偏好,到兴趣、价值观等(Gabriel,2020)。另一个流行的目标是“有益、诚实、无害”(HHH) 原则(Askell 等人,2021)。然而,大多数工作(Ouyang et al., 2022; Rafailov et al., 2023)强调对齐方法,而忽略了对什么目标最合适的分析。

协调一致的模型能够生成与这些确定的目标相符的内容。然而,由于评估者追求不正确的目标、有问题的奖励模型或政策,可能会出现不一致问题(Casper 等人,2023)。不一致的模型可能会无意中导致意外或不良的伤害和后果。例如,这些模型可能会产生错误信息或歧视性和有害的内容,从而可能被恶意使用(Brundage 等,2018)。此外,即使模型相当一致,仍然可能表现出某些缺点。它们可能会产生幻觉(Ji et al., 2023)、传播偏见(Santurkar et al., 2023),并且容易受到越狱等对抗性攻击(Li et al., 2023b)。

总体而言,实现一致性需要仔细考虑它们应符合的各种目标,解决潜在的不一致问题,并减轻这些模型可能具有的限制和漏洞。

2.4 数据集和对齐的评估

数据集:为了使人工智能与人类保持一致,已经提出了几种对齐数据集。一些研究利用人工数据集来微调模型,例如 Dolly (Conover et al., 2023)、OpenAssistant (Köpf et al., 2023), 2023) 和 LIMA (Zhou et al., 2023)。尽管人工制作的数据集提供了可以有效地将模型与人类保持一致的高质量数据,但它们需要大量的人力和资源。自指导(Wang et al., 2023d)采用半自动化流程,利用最少的人类标记的数据来构建遵循数据集的指令。 Alpaca 还利用 Self-Instruct 方法来微调 LLaMA。此外,Baize(Xu et al., 2023a)利用 ChatGPT 通过与自身聊天来自动生成对话格式的指令和响应。
在这里插入图片描述
评估: 一致性的评估是指评估人工智能的行为是否符合人类意图,即公式(1)中的L。为了评估大模型的对齐,已经提出了许多对齐基准和方法。早期基准评估人工智能在特定风险标准上的表现,例如毒性、偏见和错误信息(Gehman 等人,2020;Lin 等人,2021b,白等人 2022a) 引入了一个包含人类偏好数据的数据集,用于评估人工智能的有用性和无害性。 TruthfulQA(Lin 等人,2021b)是一个基准,旨在通过识别虚假信息来评估模型的真实性。 NLP 世代有许多评估指标可用于对齐评估,例如 BLEU (Papineni et al., 2002)、ROUGE (Lin, 2004)、BERTScore (Zhang et al., 2019)。这种基于相似性的测量很常用,但需要真实参考,并且与人类判断的相关性较低。因此,还涉及到人工评估,但比较耗时且成本较高。之前的工作(Wang 等人,2023d;Wu 等人,2023a)提出了一种序数分类设置,其中人类注释者根据四个级别的响应(可接受、小错误、主要错误和不可接受)进行注释。为了有效评估多个LLMs,Taori 等人 (2023) 提出了一个成对评估框架,Dettmers 等人 (2023) 引入了 Elo 评级系统。最近的研究工作涉及LLMs参与文本评估的过程。 Chiang 和 Lee (2023) 验证了应用LLMs进行自然语言生成 (NLG) 的可行性。相当多的工作致力于使用开源或专有模型评估输出(Liu et al., 2023d; Wang et al., 2023c; Yuan et al., 2023; Zha et al., 2023)。尽管LLMs在自动评估方面取得了令人印象深刻的效率和一致性,但它可能会受到固有偏差的影响(Chen 等人,2023b;Wu 和 Aji,2023)。因此,有可能设计一个结合自动评估和人工评估优点的框架。

2.5 对齐的挑战

为了实现第 2 节中定义的对齐。 1、仍然存在各种研究挑战(RC)需要解决。这些挑战包括但不限于:

  • RC1:对齐功效。现有对准方法的性能在很大程度上受到限制。如何使人工智能更准确地与预期目标保持一致,而不引入无意的偏见仍然是一个悬而未决的问题
  • RC2:对齐概括。协调目标可能会随着时间、文化和背景的不同而变化。让学习到的人工智能在部署到不同场景时保持一致至关重要(de Font-Reaulx,2022)
  • RC3:数据和培训效率。训练对齐模型通常需要大量手动注释数据,这非常耗时或费力,无法跟上人工智能的快速发展步伐(Casper et al., 2023)。
  • RC4:对齐的可解释性。理解和解释人工智能的协调过程和基于价值的决策对于人工智能的信任和进一步改进至关重要,这被视为“最大的开放问题”之一(Ouyang et al., 2022)。
  • RC5:调整税。与原始人工智能相比,对齐会损害人工智能的能力(Askell 等人,2021)。最小化这种影响或找到更好的权衡是不可避免的问题。
  • RC6:可扩展的监督(Bowman 等人,2022)。当人工智能模型变得比人类更强大(超级智能)时,如何有效地监管和控制它们以防止出现不良结果是具有挑战性的。
  • RC7:规格游戏。对齐目标通常被指定为近似代理目标,比实际目标简单得多,从而导致意想不到的潜在有害副作用(Skalse 等人,2022)。

此外,制定有效的评估方法对于协调也至关重要。这些挑战仍未解决,需要社区更深入的探索。

3 对齐方法

LLM 的对齐方法主要分为三种范式:基于 RL 的对齐(第 3.1 节)、基于 SFT 的对齐(第 3.2 节)和上下文对齐(第 3.3 节)。在本节中,论文将介绍和讨论它们中的每一个,以及个性化对齐(第 3.5 节)和 LMM 对齐(第 3.4 节),并建立它们与第 3.5 节中介绍的定义的联系。 2. 附录图7总结了所有类别的对齐方法。
在这里插入图片描述

3.1 基于强化学习的对齐

人类反馈强化学习(RLHF)(Ouyang et al., 2022),它主要属于价值学习,但也可以视为两者的结合中。给定提示(指令)x 的数据集 D 以及手动标记的模型偏好和不偏好的响应 y w y_w yw y l y_l yl,典型的 RL 对齐过程由三个步骤组成:
(1) 监督微调 (SFT) 步骤: L SFT ( θ ) = − log ⁡ 1 N ∑ i π θ S F T ( y i ∣ x i ) , \mathcal{L}_\text{SFT}(\theta)=-\log\frac1N\sum_i\pi_\theta^{\mathbf{SFT}}(\mathbf{y}^i|\mathbf{x}^i), LSFT(θ)=logN1iπθSFT(yixi),
(2) 奖励模型学习:通过最小化以下损失,从偏好数据 D 中训练奖励模型 (RM) Rφ(r|y),该模型输出表示从人类学到的偏好的标量奖励 r:
L R M ( ϕ ) = − E D log ⁡ ( σ ( R ϕ ( y w i ∣ x i ) − R ϕ ( y l i ∣ x i ) ) ) \mathcal{L}_{\mathrm{RM}}(\phi)=-\mathbb{E}_{D}\log\left(\sigma\left(R_{\phi}\left(\mathrm{y}_{w}^{i}|\mathrm{x}_{i}\right)-R_{\phi}\left(\mathrm{y}_{l}^{i}|\mathrm{x}_{i}\right)\right)\right) LRM(ϕ)=EDlog(σ(Rϕ(ywixi)Rϕ(ylixi)))
(3) RL 调优:采用基于策略的深度 RL 算法,通常是近端策略优化 (PPO),使用学习到的奖励模型来优化 LLM π θ π_θ πθ:
max ⁡ π θ E ⁡ x ∼ D , y ∼ π θ [ R ϕ ( y ∣ x ) ] − λ KL [ π θ ( y ∣ x ) ∣ ∣ π S F T ( y ∣ x ) ] ( 7 ) \max_{\pi_\theta}\underset{\mathbf{x}\sim\mathcal{D},\mathbf{y}\sim\pi_\theta}{\operatorname*{E}}\left[R_\phi(\mathbf{y}|\mathbf{x})\right]-\lambda\text{KL}\left[\pi_\theta(\mathbf{y}|\mathbf{x})||\pi_{\mathbf{SFT}}(\mathbf{y}|\mathbf{x})\right] (7) maxπθxD,yπθE[Rϕ(yx)]λKL[πθ(yx)∣∣πSFT(yx)](7)

RLHF 的想法最初在(Christiano et al., 2017)中揭示,其中人类偏好表达在深度强化学习的智能体轨迹片段上,从而能够学习更复杂的行为。此后,斯蒂农等人。 (2020) 在摘要任务中采用 RLHF 技术,并学习人类对不同摘要的偏好,从而获得显着的质量提升。此外,中野等人 (2021)提出了WebGPT,它在GPT-3的基础上进行了微调,并采用RLHF来完善网络导航和信息检索的能力。此类使用 RLHF 的早期研究主要旨在提高模型性能,特别是在“乐于助人”或“诚实”方面,可能忽视“无害”(HHH)(Askell 等人,2021)。这种失败可能会导致LLMs与人类价值观之间的不一致,从而导致模型输出对用户有害或不真实,如第 2 节中所述。 1. 为了减少这种伤害,InstructGPT(Ouyang et al., 2022)利用 RLHF 来与用户的意图(由标记的模型响应表示)保持一致,从而满足 HHH 原则。 RLHF技术直接催生了最成功的交互式对话LLM之一ChatGPT,引发了对通用人工智能(AGI)的追求。

无论效果如何,RLHF 都需要同时加载至少三个 LLM,即 π θ π_θ πθ π S F T π_{SFT} πSFT R φ R_φ Rφ,以及大量高质量的手动标记数据 D ( x , y w , y l ) D(x, y_w, y_l) D(x,yw,yl)。这造成了难以承受的数据/培训成本(RC3)。为了应对这一挑战,提出了宪法人工智能(Bai et al., 2022b)来实现与人类标签的一致性。此方法与 RLHF 类似,但通过要求 LLM 生成和修改其响应来自动创建 ( y w , y l ) (y_w, y_l) (yw,yl) 对。该框架促进了一条新的路线,即来自人工智能反馈的强化学习(RLAIF)。随后,开发了 RLAIF 的不同变体。金等人 (2023)首先利用从具有不同规模和提示的LLMs中得出的综合偏好数据来训练奖励模型。然后,他们自动生成 SFT 步骤的高质量演示,然后使用奖励模型进行 RL 调整。另一方面,为了提高 RLHF 的计算效率,Gulcehre 等人(2023)提出了一种离线强化自我训练(ReST)方法。 ReST 对最新 LLM 策略的多个响应进行采样以扩充训练数据集(增长步骤),然后使用过滤后的数据通过离线 RL 目标微调 LLM 策略(改进步骤)。

优点和缺点:RLHF 已被证明可以有效地实现相对良好的泛化,并具有更好地利用人类反馈信号的潜力。然而,它因训练不稳定和训练/数据成本高(RC3)而臭名昭著,这阻碍了 RLHF 进一步的适应性(RC2)和可扩展性(RC6)。此外,方程 (7) 中不同项之间的权衡很棘手 (RC5),RC4&7 也仍未解决 。

3.2 基于SFT的对齐

为了降低对齐的复杂性和成本,研究人员更加关注RLHF的第一步,监督微调(SFT),并提出了一系列复杂的SFT变体以达到与RLHF相同的性能。为了简洁省略 x,SFT 对齐的一般形式是: argmin ⁡ θ − E p ( y w , y l ) [ log ⁡ π θ ( y w ) − log ⁡ π θ ( y l ) ] ∝ KL [ p ( y w ) ∣ ∣ π θ ( y w ) ] − KL [ p ( y l ) ∣ ∣ π θ ( y l ) ] ( 8 ) \begin{aligned}\underset{\theta}{\operatorname*{argmin}}-\mathbb{E}_{p(\mathbf{y}_w,\mathbf{y}_l)}[\log\pi_\theta(\mathbf{y}_w)-\log\pi_\theta(\mathbf{y}_l)]\\\propto\text{KL}\left[p(\mathbf{y}_w)||\pi_\theta(\mathbf{y}_w)\right]-\text{KL}\left[p(\mathbf{y}_l)||\pi_\theta(\mathbf{y}_l)\right]\end{aligned} (8) θargminEp(yw,yl)[logπθ(yw)logπθ(yl)]KL[p(yw)∣∣πθ(yw)]KL[p(yl)∣∣πθ(yl)](8)
表明该范式是等式中模仿学习的成员,直接学习模仿偏好的行为,同时忘记不偏好的行为。不使用反例 y l y_l yl,等式 (8)恢复到传统的指令调整.
行为的模仿学习也可以形成奖励学习。该领域的一项里程碑式的工作是直接偏好优化(DPO)(Rafailov 等人,2023)。该方法利用 Bradley-Terry (BT) 偏好模型, p ∗ ( y w ≻ y l ∣ x ) = exp ⁡ ( r ∗ ( y w , x ) ) exp ⁡ ( r ∗ ( y w , x ) ) + exp ⁡ ( r ∗ ( y l , x ) ) p^*(\mathbf{y}_w\quad\succ\quad\mathbf{y}_l|\mathbf{x})\quad=\quad\frac{\exp(r^*(\mathbf{y}_w,\mathbf{x}))}{\exp(r^*(\mathbf{y}_w,\mathbf{x}))+\exp(r^*(\mathbf{y}_l,\mathbf{x}))} p(ywylx)=exp(r(yw,x))+exp(r(yl,x))exp(r(yw,x)),对 y w y_w yw 优于 y l y_l yl 的概率进行建模,以构建最优奖励函数和最优策略之间的映射, r ∗ ( y , x ) ∝ λ log ⁡ π ∗ ( y ∣ x ) π S F T ( y ∣ x ) r^*(\mathbf{y},\mathbf{x})\propto\lambda\log\frac{\pi^{*}(\mathbf{y}|\mathbf{x})}{\pi_{\mathrm{SFT}}(\mathbf{y}|\mathbf{x})} r(y,x)λlogπSFT(yx)π(yx),源自 RLHF 损失方程(6)。这种形式允许通过优化 LLM 策略和损失来直接学习 BT 偏好模型: L D P O = − ∑ x , y w , y l [ log ⁡ σ ( λ log ⁡ π θ ( y w ∣ x ) π S F r ( y w ∣ x ) − λ log ⁡ π θ ( y l ∣ x ) π S F r ( y l ∣ x ) ) ] ( 9 ) \begin{aligned}\mathcal{L}_{\mathrm{DPO}}=-\sum_{\mathbf{x},\mathbf{y}_{w},\mathbf{y}_{l}}[\log\sigma(\lambda\log\frac{\pi_{\theta}(\mathbf{y}_{w}|\mathbf{x})}{\pi_{\mathrm{SFr}}(\mathbf{y}_{w}|\mathbf{x})}-\lambda\log\frac{\pi_{\theta}(\mathbf{y}_{l}|\mathbf{x})}{\pi_{\mathrm{SFr}}(\mathbf{y}_{l}|\mathbf{x})})] (9)\end{aligned} LDPO=x,yw,yl[logσ(λlogπSFr(ywx)πθ(ywx)λlogπSFr(ylx)πθ(ylx))](9)
请注意,DPO 模拟了人类偏好,并隐式地用策略表示奖励,但论文将其归类为模仿学习,因为策略仍然是直接优化的。
此外,他们还导出了 ψPO 的一个特定变体,即 IPO 方法,通过训练损失规避 BT 偏好模型假设来解决过度拟合问题:
L I P O = − E ( x , y w , y l ) ∼ D [ log ⁡ ( π θ ( y w ∣ x ) π S F T ( y l ∣ x ) π θ ( y l ∣ x ) π S F T ( y w ∣ x ) ) − λ − 1 2 ] 2 . \begin{aligned} &\mathcal{L}_{\mathrm{IPO}}=-\mathbb{E}_{(\mathbf{x},\mathbf{y}_{w},\mathbf{y}_{l})\sim D}[\log(\frac{\pi_{\theta}(\mathbf{y}_{w}|\mathbf{x})\pi_{\mathrm{SFT}}(\mathbf{y}_{l}|\mathbf{x})}{\pi_{\theta}(\mathbf{y}_{l}|\mathbf{x})\pi_{\mathrm{SFT}}(\mathbf{y}_{w}|\mathbf{x})})- \frac{\lambda^{-1}}{2}]^{2}. \end{aligned} LIPO=E(x,yw,yl)D[log(πθ(ylx)πSFT(ywx)πθ(ywx)πSFT(ylx))2λ1]2.
此外,受对比学习的启发,一些方法从符合人类期望的正样本中学习模式,同时偏离负样本。 SLiC-HF 包括等级校准损失和交叉熵正则化项,以鼓励模型 π θ π_θ πθ 生成正序列 y w y_w yw L S L i C = max ⁡ ( 0 , γ − log ⁡ π θ ( y w ∣ x ) + log ⁡ π θ ( y l ∣ x ) ) − λ log ⁡ π θ ( y r e f ∣ x ) \begin{array}{l}\mathcal{L}_{\mathrm{SLiC}}=\max(0,\gamma-\log\pi_\theta(\mathbf{y}_w|\mathbf{x})+\log\pi_\theta(\mathbf{y}_l|\mathbf{x}))-\lambda\log\pi_\theta(\mathbf{y}_{\mathrm{ref}}|\mathbf{x})\end{array} LSLiC=max(0,γlogπθ(ywx)+logπθ(ylx))λlogπθ(yrefx),其中 y r e f y_{ref} yref 是正则化目标,γ 和 λ 分别是边际和正则化权重的超参数。 SLiC-HF 使用保证金损失代替 DPO 中的定量损失。刘等人 (2023d) 首先引入了一个名为 SANDBOX 的模拟人类社会,它通过众多基于 LM 的社交代理之间的通信来收集交互数据。然后,基于对比学习,设计了一种新颖的对齐算法“稳定对齐”,以从收集的数据中学习社交对齐。 Bhardwaj 和 Poria (2023) 提出了一种 RED-INSTRUCT 方法来实现LLMs的安全调整。该方法涉及使用蓝色和红色数据构建 HARMFULQA。然后应用 SAFE-ALIGN 策略来微调 Vicuna,将模型移向分布中安全且有益的响应区域,同时使其远离有害区域。海吉纳等人(2023)提出对比偏好学习(CPL),它使用基于后悔的模型来直接学习策略。将基于遗憾的偏好框架与最大熵(MaxEnt)原理相结合,CPL的监督目标可以基于专家的奖励函数学习一致的优势函数并收敛到最优策略。
优点和缺点:基于 SFT 的对齐提供了一种更灵活的方式来建模人类偏好并提高对齐性能,对应于第 2 节中介绍的模仿学习类。与 RLHF 相比,SFT 效率更高,只需要加载一个(式(8))或两个(式(9))模型。 SFT的训练更加稳定,收敛速度更快。然而,由于价值学习过程是以隐式方式进行的,SFT 对齐的平滑性和泛化性(RC2)有限,因此性能相对较差(RC1)。从方程 (8)可以看到模仿学习的效果高度依赖于被逼近的目标行为分布p(yw)、p(yl),对数据质量提出了更严格的要求(RC3)。此外,可解释性较差,因为奖励不是直接学习的,因此很难知道(RC4)。 SFT是否有一天能够达到或超越RLHF的性能,是一个有待研究的问题

3.3 上下文对齐

考虑到 SFT 和 RL 的成本,以及大多数主流 LLM 都是黑盒的事实,基于微调的对齐方法变得越来越难以负担或不可行。因此,另一种流行的范式——基于上下文学习(ICL)的对齐——引起了更多的关注。这种方法利用了LLMs在预训练和指令调整阶段获得的大量知识和指令跟踪能力。通过直接提供价值指令或 K 次样本 { x i , y i } i = 1 K \{x_i, y_i\}_{i=1}^K {xi,yi}i=1K,ICL 限制 LLM 的生成以与人类价值观保持一致,从而避免额外的训练。事实上,ICL也可以看作是模仿学习的一种。通过合并共享提示概念(Xie et al., 2021),c(例如值),最小化 p ( y , x , c ) p(y, x, c) p(y,x,c) π θ ( y , x , c ) π_θ(y, x, c) πθ(y,x,c) 之间的差异可以转化为优化: a r g m i n K L [ p ( y , x , c ) ∣ ∣ π θ ( y , x , c ) ] = a r g m i n E p ( x , y ) { E p ( c ∣ x , y ) [ log ⁡ π θ ( y ∣ x , c ) ] 5 , y ) − KL ⁡ [ p ( c ∣ x , y ) ∣ ∣ π θ ( c ∣ x ) ] } argmin KL[p(\mathbf{y},\mathbf{x},\mathbf{c})||\pi_\theta(\mathbf{y},\mathbf{x},\mathbf{c})] =argmin \mathbb{E}_{p(\mathbf{x},\mathbf{y})}\{\mathbb{E}_{p(\mathbf{c}|\mathbf{x},\mathbf{y})}\left[\log\pi_\theta(\mathbf{y}|\mathbf{x},\mathbf{c})\right] 5,\mathbf{y})-\operatorname{KL}[p(\mathbf{c}|\mathbf{x},\mathbf{y})||\pi_\theta(\mathbf{c}|\mathbf{x})]\} argminKL[p(y,x,c)∣∣πθ(y,x,c)]=argminEp(x,y){Ep(cx,y)[logπθ(yx,c)]5,y)KL[p(cx,y)∣∣πθ(cx)]}
省略 KL 正则化项和冻结参数 θ,模仿学习可以被视为隐式贝叶斯推理,从给定示例 x、y 推断潜在概念,并驱动 LLM 生成连接响应。

具体来说,最简单的方法是促使LLMs生成符合人类偏好的响应(Ganguli 等人,2023)。 Han (2023) 进一步从 SFT 数据中检索并包含相关演示示例,并将它们与输入提示连接起来。林等人(2023)发现一致的LLMs主要学习符合人类偏好的语言风格,为支持“表面一致假说”提供了证据(Zhou et al., 2023)。基于这些发现,他们建议利用三个一致的风格示例和一个系统提示来进行对齐。考虑到现实世界中不断变化和多样化的人类价值观,动态偏好优化 (OPO)(Xu 等人,2023b)利用检索增强生成 (RAG) 来实现动态对齐。此外,生成然后优化模式(Gou et al., 2023)首先生成初始响应,然后使LLMs能够验证和纠正自己的输出。可回滚自回归推理(RAIN)(Li et al., 2023c)包括一个用于评估自身输出的自评估机制和一个用于搜索和回滚令牌集的回滚机制,用作插件模块。

优点和缺点:基于 ICL 的对齐避免了对训练和数据的需求,解决了 RC3 问题。同时,在不修改原始模型参数的情况下,该范式最大限度地减少了LLMs的能力损失,避免了对齐税(RC5),并且更适合黑盒模型。尽管如此,其表现取决于LLMs的能力(RC1),并且很难适用于不同的场景(RC2、RC6)。

3.4 多模态对齐

除了LLM之外,大型多模态模型(LMM)近年来也进入了发展的新篇章,能够同时处理多种模态,例如图像、视频和文本,并学习从一种模态到另一种模态的映射(刘等人,2023c)。LLMs对齐的初步成就表明了多模式场景中对齐的潜力。具体来说,一系列工作将预训练的视觉编码器与LLM集成,并进行指令调优,为LLM提供视觉QA能力,例如LLaVA(Liu et al., 2023c)、MiniGPT-4(Zhu et al., 2023) )等(Li等,2023a;Gong等,2023;Dai等,2023)。 LLaVA (Liu et al., 2023c) 迈出了将指令调优扩展到 LLM 的第一步,它结合了 CLIP 的视觉编码器和基于 LLaMA 的语言解码器,并对 GPT-4 生成的多模态数据集进行视觉指令调优。 MiniGPT4(Zhu et al., 2023)仅训练单个投影层,以将编码的视觉特征与 Vicuna 语言模型对齐。在对精选的小型数据集进行指令调整后,MiniGPT-4 可以生成更自然、更可靠的语言输出。对于文本到图像任务,受LLMs RLHF 有效性的启发,Lee 等人(2023)提出了一种直接从人类反馈中学习的微调方法。该过程首先收集关于生成的图像是否与其输入文本提示相对应的人类偏好数据,学习该数据的奖励模式,最后使用奖励加权似然最大化来优化文本到图像模型以实现对齐。为了符合人类的审美价值观,Wu 等人(2023b) 首先利用人类选择的图像来微调 CLIP 模型作为偏好分类器。该分类器用于为训练数据集产生伪奖励,该奖励进一步用于微调稳定扩散模型。经过训练的模型可以生成人类更喜欢的具有更好审美质量的图像。

多式联运目前正处于发展的最初阶段,主要强调与人类指令的一致,但忽视了高层次和多样化的人类价值观,如美德和社会规范。确保无害是一项重大且不可忽视的挑战

3.5 个性化一致性

在这里插入图片描述

随着大语言模型在自然语言处理(NLP)领域的革命性出现,研究发现大语言模型可以在特定的提示配置下模拟可靠有效的人格(Safdari等,2023;哈根多夫,2023; Jiang et al., 2023),而LLMs模拟的人格对于较大的和指令微调的模型可能会更强(Safdari et al., 2023),这为个性化大型语言模型提供了支持。LLMs的调整旨在引导LLMs朝着人类预期的目标、偏好或道德原则迈进。然而,人类社会极其多样化,包含广泛的观点、价值观和信仰。如何有效地个性化LLMs以迎合这种异质性的问题尚未完全解决。因此询问“我们为谁提供个性化服务”对于个性化至关重要。为了回答这个问题,论文总结了个性化LLMs的两个方向。第一个方向是个人反思,LLMs通过建模和模仿人类来展现特定的个性。第二个重点是将具有特定个性的LLMs定制为理想的助手。遵循这两个方向,个性化LLMs可能会导致各种行为。根据心理学的定义,论文描绘了表征LLMs人格的四个关键代表性维度:语言风格、情感、推理模式和观点。语言风格是指文本生成中的词汇选择、语法用法、句子结构、写作语气等多个要素,在个性化摘要和机器翻译任务中具有特殊意义(Lin et al., 2021a;Zhang et al., 2022;Firdaus 等人,2022a)。LLMs人格中的情感与他们在反应中识别和表达情感的能力有关。推理模式与大型语言模型复杂推理中的思维链(COT)提示密切相关(Wang et al., 2023b)。正如不同的人有不同的推理模式一样,不同性格的LLMs也可能表现出不同的推理路径,导致对不同主题的不同意见和观点。将LLMs与个性化结合起来可以带来很多优势。首先,个性化可以创建用户友好的帮助(Silva 和 Canedo,2022)。通过根据个人用户偏好定制响应和预测,LLMs可以更好地满足特定需求,从而提高任务完成度和整体满意度。此外,个性化促进了拟人化(Bhatti 和 Robert,2023;Xiao 和 He,2020),使LLMs能够参与更类似于人类的对话,并提供更一致和互动的响应。此外,个性化可以增加用户和LLMs之间的感知情感联系,这不仅可以产生信任,还可以增强用户参与度(Ma et al., 2020)。最后,个性化使LLMs拥有模拟人类社会的潜力,为计算社会学等跨学科领域提供新颖的研究途径(Ziems et al., 2023)。近年来,对个性化LLMs的关注日益加强,研究人员和开发人员深入研究这些领域:调查LLMs的个性、个性化LLMs的下游任务以及提高个性化。

调查LLMs的个性 最近有人尝试调查LLMs个性。江等人(2022)遵循标准人格测试,并创建一个基于大五理论和人格评估量表(PAI)的评估数据集(Morey,2004)。萨夫达里等人 (2023) 在多项选择题回答 (MCQA) 和长文本生成方面评估不同规模的LLMs。
个性化LLMs的下游任务 有各种类型的研究探索部署个性化LLMs的场景。将用户历史记录与LLMs相结合以获得更准确和灵活的推荐是一个新兴的研究热点(Zhang et al., 2023a; Bao et al., 2023; Wang and Lim, 2023; Chen, 2023)。在对话系统领域,许多努力都集中在提高医疗保健(Chen et al., 2023c)、情感支持(Tu et al., 2022;Zheng et al., 2022;Peng et al., 2022)等应用的情感感知能力、电子商务系统(Firdaus et al., 2022b)等。另一个有前途的研究方向是LLM驱动的代理,在个性化LLM和额外记忆的帮助下,生成代理可以创建可信的人类行为模拟(Park 等人,2022、2023;Ziems 等人,2023),为不同目的获取不同领域的多样化数据集和基准至关重要。 Santurkar 等人收集了 60 个美国人口群体的数据。 (2023) 创建一个数据集,用于对从堕胎到自动化等主题的LLMs意见评估。萨莱米等人(2023)提出了一个基准,其中包含七个用于训练和评估个性化语言模型的个性化任务。田等人 (2023) 为开放域对话系统构建了一个数据集,涵盖知识、个性多轮记忆和同理心的不同特征。

实施个性化LLMs面临着一些挑战。主要障碍之一是模型效率,因为通过提示纳入个性化可能会导致推理时间增加,并且微调LLMs以适应个人偏好和细微差别可能非常复杂且占用资源。另一个障碍在于数据效率,因为人类的偏好和价值观本质上是动态的,难以精确定义(Gabriel and Ghazavi,2021),在保护用户隐私的同时获取足够的个性化数据更加困难。除了这些挑战之外,个性化LLMs还存在一些值得仔细考虑的值得注意的风险。首先,可能会出现偏见和歧视问题,因为个性化LLMs可能会无意中延续或强化个性化数据中普遍存在的现有偏见(Cheng 等人,2023 年;Deshpande 等人,2023a)。其次,个性化的LLMs可能会通过强化用户现有的信念和观点来促进回声室和两极分化(Kirk et al., 2023)。上述风险可能违反立法蓝图中的多项规定(OSTP,2022;Deshpande 等人,2023b)。最后,用户对个性化LLMs的过度依赖可能会导致成瘾行为和过度依赖。

4 进一步的挑战和研究

从上面的讨论和分析中,可以看到Sec. 2中的大部分研究挑战仍在进行中或完全未经探索,需要更详细的调查。在解决这些问题时,社区提出了各种假设/解决方案。论文介绍如下:
Anthropic的核心观点根据提高AI安全性的难度将对齐方法分为三种场景乐观情景:由于安全故障而导致先进人工智能的潜在灾难性风险很小,因为 RLHF(Ouyang 等人,2022)和宪法人工智能(Bai 等人,2022b)等现有技术被认为非常有希望进行协调。中间情景承认存在灾难性风险的可能性,需要大量的科学和工程努力来应对这些风险,但通过不懈的努力仍然可以实现。最后,悲观情景将人工智能安全视为一个无法解决的问题,认为控制或指定比人类智力更强的系统的价值是不可能的,因此反对高度先进的人工智能系统的开发或部署。 OpenAI 建立了 Superalignment2 项目,目标是在未来四年内将 20% 的计算资源用于应对对齐挑战。他们的主要策略被称为“将计算转化为对齐”,重点是通过自动化流程迭代地完善对齐。自动对齐研究人员的构建需要三个过程:1)开发可扩展的、以人工智能为中心的训练方法,保证模型的泛化性和人类监督的能力,2)通过设计方法来验证系统用于自动检测和解释有问题的行为和内部结构,以增强鲁棒性和可解释性,以及3)进行压力测试,通过有意训练未对准的模型并使用其技术验证严重未对准的检测来评估管道的有效性。最终目标是实现超级智能的一致性(Nick,2014)。

应对未解决的挑战 社区目前重点关注 RC1、RC2 和 RC3。进行 RLHF、DPO 和 SLiC 等算法细化,以确保大模型更准确地符合所需的行为和偏好。 RLAIF 的研究重点是通过自动生成训练来提高数据效率,从而减少人为干预并提高可扩展性。我们还努力通过简化基于强化学习的方法来提高训练效率,其中包括 DPO 和 RAIN 等算法,可加速收敛并减少 GPU 使用。尽管到目前为止取得了进展和突破,但其他问题如泛化(价值观和背景的可变性)、可解释性(透明的对齐过程和基于价值的推理)、对齐税(同时最小化对齐税和最大化对齐效率)、可扩展监督(薄弱) - 强泛化)和规范游戏代表了关键的进一步方向。

指定更合适的对齐目标 现有的对齐方法主要集中于人类的指示或偏好,而忽视了兴趣、福祉和价值观。为了确保更全面的对齐,在设计和对齐技术中考虑这些额外的方面至关重要。通过与人类的指令和偏好保持一致,智能体确实学会了执行人类偏好的行为。然而,从根本上来说,他们缺乏关于什么是真正“良好”行为的内在知识,这些行为是由外部反馈驱动的,而不是对客观认为良好的行为的内在理解。为了提高一致性,必须扩大目标,使其与人类期望更加一致。这可能涉及将对伦理学、人文和社会科学的价值理论以及社会福祉的更深入理解融入到协调过程中。通过这种方式,可以努力创建大模型,不仅执行人类喜欢的行为,而且符合更广泛的道德和伦理良好概念。协调大模型的一个有希望的方向是社会化协调。它承认不同的社会有不同的社会价值观。社会主体的行为需要符合他们与用户互动的社会的特定价值观和规范。这种方法确保大模型的行动和响应符合普遍的社会背景和期望。

5. 结论

在这项工作中,论文深入探讨了对齐的起源和本质,系统地介绍了它的发展、目标、形式化和评估。论文还回顾了现有的对齐工作,并分析了每个范式是如何从原始形式派生出来的,并建立了它们的内在联系。通过对对齐进行全面分析并确定未来的挑战和研究方向,论文的目标是促进大模型对齐方法的理解和进步,引导这些人工智能系统不仅避免造成伤害,而且意图做好事,最终实现人机共生的未来社会。

  • 17
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值