主要内容
大模型在人工智能领域取得了革命性的突破,但它们也可能带来潜在的担忧。为了解决这些担忧,引入了对齐技术,以使这些模型遵循人类的偏好和价值观。尽管过去一年取得了相当大的进展,但在建立最佳对齐策略时仍然存在各种挑战,例如数据成本和可扩展的监督,如何对齐仍然是一个悬而未决的问题。在这篇综述文章中,作者全面调查了价值对齐方法。文章首先解析对齐的历史背景,追溯到20世纪20年代(它来自哪里),然后深入探讨对齐的数学本质(它是什么),揭示了固有的挑战。在此基础上,作者详细检查了现有的对齐方法,这些方法分为三类:强化学习、监督式微调和上下文内学习,并展示了它们之间的内在联系、优势和局限性,帮助读者更好地理解这一研究领域。此外,还讨论了两个新兴主题:个性化对齐和多模态对齐,作为该领域的新前沿。展望未来,文章讨论了潜在的对齐范式以及它们如何处理剩余的挑战,展望了未来对齐的发展方向。
https://arxiv.org/abs/2403.04204
具体介绍
大模型,是指在大量数据上训练并包含超过数十亿参数的神经模型,通常包括大型语言模型(LLMs)和大型多模态模型(LMMs)。LLMs 通常是基于Transformer的大规模语言模型,以自回归方式训练,如GPT-3、PaLM、ChatGPT、Bard和LLaMA。LLMs 的卓越能力也促进了LMMs 的发展,LMMs 能够处理图像(视觉)和自然语言文本(语言),如PaLM-E、LLaVA、DALL-E 3和Gemini。与小模型不同,大模型展示了两个独特特征:规模化法则,阐明了模型规模增长与性能改进之间的一致关系,以及新兴能力,显示当模型规模超过某一阈值时,意外地出现了在小模型中未观察到的新能力,如上下文内学习、指令跟随和跨多种任务和领域的逐步推理,革新了AI的角色。
然而,由于大模型通常是在从互联网爬取的数据集上预训练的,它们也可能内化风险信息并引发一些潜在的担忧,包括产生社会偏见、有害语言和排斥、错误信息和社会经济伤害,对社会造成深远的影响。此外,观察到两个风险特征,一是某些风险可能不仅仅是保持不变,而且随着模型规模的增加而恶化,二是未见的风险可能出现或显著放大的现有风险随着更大的模型而出现,使得之前建立的特定风险方法难以处理迅速出现的潜在问题。对这些伦理和社会风险给予极高的重视是至关重要的。低估这些风险可能会导致严重的后果。
为了解决上述风险,研究人员开发了各种对齐方法,以使LLMs与人类指令、偏好和价值观对齐。在LMMs的背景下,"对齐"这一术语传统上指的是不同模态之间的对齐,如视觉和语言。然而,随着LLMs中对齐技术的进步,现在它倾向于代表使LMMs对齐,以使它们遵循人类指令并完成多样化的任务。
对齐的概念可以追溯到诺伯特·维纳的表述,"我们最好确信放入机器中的目的是我们真正想要的目的",这被定义为"A试图做H想要它做的事情",其中A和H是现代AI研究中的两个智能代理。随后,对齐的研究在强化学习(RL)领域逐渐获得重要性,并在大模型时代蓬勃发展,培育了多样化的生成模型和多模态模型。良好对齐的AI代理,例如LLMs,不仅具有遵循用户指令从而协助完成任务或回答问题的能力,还有避免生成攻击性或歧视性内容的能力。相反,未对齐的AI将会导致潜在风险,如真实性问题、错误信息、上瘾和群体两极分化。
尽管近年来取得了显著进展,但对大模型对齐的研究仍处于初级阶段,理解这一主题仍存在许多模糊和困难。认识到对齐的重要性,本文致力于对现有对齐方法进行全面的综述和分析,以促进人工智能与人类的共生未来。
作者的讨论范围包括:
一、介绍对齐的历史并详述对齐的本质,
二、回顾现有方法论并分析其优势、劣势和联系,
三、讨论未来的挑战和研究方向。
对其目标
在深入探讨如何对齐之前,作者首先简要介绍了需要对齐的目标。对齐目标的讨论源自于规范问题,即我们如何定义我们期望从人工智能中得到的目的?这可以从两个方面考虑:一是规范方面,即我们应该将什么目标编码进人工智能中,二是技术方面,即我们如何形式化和建模这些目标。未能实现目标可能会导致人工智能寻找漏洞并以意料之外的方式实现目标,这被称为规范游戏。从规范方面来看,对齐目标的范围从指令、意图和偏好到利益、价值等。另一个流行的目标是有益、诚实和无害(HHH)原则。然而,大部分工作强调对齐方法,而忽略了关于哪个目标最合适的分析。
良好对齐的模型能够生成与这些确定的目标一致的内容。然而,由于评估者追求错误的目标、问题奖励模型或策略,可能会出现错位问题。错位的模型可能会无意中导致意料之外或不希望的伤害和后果。例如,存在恶意使用的潜力,这些模型可能生成错误信息或歧视性和有害的内容。此外,即便是相当良好对齐的模型,也仍然可能展现出某些缺陷。它们可能产生幻觉,传播偏见,并且容易受到如越狱等对抗性攻击的影响。
总体而言,实现对齐需要仔细考虑它们应该对齐的各种目标,解决潜在的错位问题,并减轻这些模型可能具有的限制和脆弱性。
对齐方法
LLMs的对齐方法主要分为三种范式:基于强化学习的对齐、基于监督式微调的对齐和上下文内对齐。在文章中,作者介绍和讨论了这三种范式,以及个性化对齐和LMM对齐,并建立了它们与对齐定义的联系。
RLHF(基于人类反馈的强化学习)的理念最初在2017年被提出,其中人类偏好是针对代理轨迹的片段表达的,用于深度强化学习,使得学习更复杂的行为成为可能。之后,研究者将RLHF技术应用于摘要任务中,并学习人类对不同摘要的偏好,从而显著提高了质量。此外,WebGPT在GPT-3上进行微调,并利用RLHF来提炼网页导航和信息检索的能力。这些早期使用RLHF的研究主要旨在提高模型性能,特别是在"有用性"或"诚实性"方面,可能忽略了"无害性"。这种失败可能会导致LLMs与人类价值观的错位,导致模型输出对用户有害或不真实。
为了减少这种伤害,InstructGPT利用RLHF与用户的意图对齐,后者通过标记的模型响应来表示,以满足HHH原则。RLHF技术直接催生了最成功的互动对话LLMs之一,ChatGPT,激发了对人工通用智能(AGI)的追求。
尽管RLHF的效果令人满意,但它需要同时加载至少三个LLMs,以及大量高质量的手动标记数据。这带来了无法承受的数据/训练成本。为了应对这一挑战,Constitutional AI被提出以实现与人类标签的对齐。这种方法类似于RLHF,但通过要求LLM生成并修正其响应来自动创建对。这个框架促进了对齐的新方向,即基于AI反馈的强化学习(RLAIF)。随后,开发了RLAIF的不同变体。一种变体是首先利用来自不同规模和提示的LLMs衍生的合成偏好数据来训练奖励模型。然后,它自动生成高质量的示范用于监督式微调步骤,接着进行奖励模型的RL调整。另一方面,为了提高RLHF的计算效率,研究者提出了一种离线强化自训练(ReST)方法。ReST从最新LLM策略中采样多个响应以扩充训练数据集(增长步骤),然后使用过滤后的数据通过离线RL目标对LLM策略进行微调(改进步骤)。
RLHF在实现相对良好的泛化方面已被证明是有效的,具有更好利用人类反馈信号的潜力。然而,它因训练不稳定和高训练/数据成本而臭名昭著,这阻碍了RLHF进一步的适应性和可扩展性。此外,不同RLHF子目标之间的权衡是难以处理的,而规范游戏和规范加载的问题也仍未解决。
考虑到监督式微调和强化学习的成本,以及大多数主流LLMs是黑盒的事实,基于微调的对齐方法变得越来越难以承担或不可行。因此,另一种受欢迎的范式——基于上下文学习(ICL)的对齐——吸引了更多的注意。这种方法利用了LLMs在预训练和指令调整阶段获得的庞大知识和遵循指令的能力。
除了LLMs之外,大型多模态模型(LMMs)近年来也开启了发展的新篇章,能够同时处理多种模态,如图像、视频和文本,并学习从一种模态到另一种模态的映射。对LLMs的初步对齐成就表明了在多模态场景中进行对齐的潜力。具体来说,一系列工作整合了预训练的视觉编码器和LLM,并进行指令调整,以赋予LLM视觉问答(QA)能力,例如LLaVA、MiniGPT-4等。LLaVA是将指令调整扩展到LLMs的第一步,它结合了CLIP的视觉编码器和基于LLaMA的语言解码器,并在GPT-4生成的多模态数据集上进行视觉指令调整。MiniGPT-4仅训练单个投影层以将编码的视觉特征与Vicuna语言模型对齐。经过在精选小数据集上的指令调整后,MiniGPT-4能生成更自然、更可靠的语言输出。对于文本到图像的任务,受LLMs中RLHF有效性的启发,研究者提出了一种直接从人类反馈中学习的微调方法。该过程首先收集人类关于生成图像是否与其输入文本提示相对应的偏好数据,学习基于这些数据的奖励模型,最后,使用奖励加权似然最大化优化文本到图像模型以实现对齐。为了与人类审美价值对齐,一项工作首先利用人类选择的图像微调CLIP模型作为偏好分类器。这个分类器用于为训练数据集产生伪奖励,进一步用于微调Stable Diffusion模型。训练后的模型可以生成人类更偏好的更好审美质量的图像。
多模态对齐目前处于其发展的非常初期阶段,主要强调与人类指令的对齐,但忽略了如美德和社会规范等高层次和多样化的人类价值。确保无害性提出了一个重大且不可忽视的挑战。
在心理学领域,个性指的是构成个体独特性的独特特征、特质以及思想、感觉和行为模式的模式。由于个性在塑造人类行为中扮演着重要角色,过去几十年提出了大量理论和模型来解释和分类个性的不同方面。随着大型语言模型在自然语言处理(NLP)中的革命性出现,研究发现,大型语言模型在特定提示配置下可以模拟出可靠和有效的个性,而且对于更大和经过指令微调的模型,LLMs模拟的个性可能更强,这为个性化大型语言模型提供了支持。
在个性化对齐方面,现有的方法主要集中在两个方向:一是个性化提示,即精心设计提示以引导LLM生成具有特定个性特征的文本;二是个性化微调,即在标记有目标个性特征的数据上微调LLM。个性化提示的一个例子是Anthropic提出的构成性AI(Constitutional AI),它使用一组定义良好角色的"宪法"来促进聊天机器人的个性化。个性化微调的一个例子是Anthropic提出的InstructGPT,它在标记有目标个性特征(如同理心、创造力、幽默感等)的数据上微调GPT-3模型,以生成更加个性化和吸引人的对话。尽管这些方法在控制LLM的个性方面取得了一定的成功,但它们仍然局限于预定义的个性特征集,缺乏更细粒度和动态的个性建模。此外,个性化的LLM在多轮对话中可能会表现出不一致的个性,这可能会损害用户体验。未来的个性化对齐研究可以探索更先进的个性建模方法,如在对话历史的背景下动态调整个性,以及在多个维度(如性格、情绪、知识等)上对个性进行更细粒度的控制
总之,通过对对齐进行全面分析并识别未来的挑战和研究方向,这篇综述文章旨在为大模型的对齐方法的理解和进步做出贡献,指导这些人工智能系统不仅避免造成伤害,而且还意图做出善举,最终实现一个人工智能与人类共生的未来社会。尽管目前的对齐技术还处于起步阶段,存在诸多局限和挑战,但随着研究的不断深入和突破,对齐有望成为确保AI造福人类的关键。展望未来,个性化对齐和多模态对齐有望成为该领域的新前沿和重要方向。同时,构建更加鲁棒、高效、可扩展的对齐范式,并在更广泛的社会伦理框架下思考对齐问题,将是推动该领域持续进步的重要课题。