价值观罗盘：如何让大模型与人类价值观对齐？

最新推荐文章于 2025-05-08 09:45:00 发布

PaperWeekly

最新推荐文章于 2025-05-08 09:45:00 发布

阅读量303

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247661558&idx=4&sn=122ff2e0dcad50731a06b050ca4d5c25&chksm=97de16d1e0e8a35550f8488f2e1f913c752c0425c4c8f48f081644a5d93b4008d21e69d51520&scene=126&sessionid=0

版权

编者按：随着人工智能技术的快速发展和能力的不断增强，大模型已经逐步应用于人们的日常生活。但这同时也带来了很多新的潜在风险，进一步凸显了大模型与人类价值观对齐问题的紧迫性。然而，人工智能应该与哪些价值观进行对齐？又该如何对齐？这些问题至今还没有明确的答案。

为了解决这些挑战，微软亚洲研究院提出了价值观罗盘（Value Compass）项目，从交叉学科的角度切入，充分借鉴伦理学和社会学中的理论，以解决对价值观的定义、评测和对齐问题。本文将深度解析大模型价值观的对齐现状，并介绍微软亚洲研究院在这一领域取得的最新研究成果——基于施瓦茨人类基本价值理论的 BaseAlign 对齐算法。

近年来，模型大小和预训练数据量与日俱增，使得大模型呈现出两大特点：尺度定律（scaling law）和能力涌现（emergent abilities）。在这样的背景下，大模型从早期的数亿参数发展到千亿参数，其处理和分析问题的能力也得到了显著提升。然而，因为海量的预训练数据中无法避免地会包含一些有害信息，所以大模型的发展也引发了新的问题与挑战。

与此同时，伴随大模型发展而产生的风险与挑战也显示出两个新特性：一是，风险涌现（emergent risks）[1]，即随着模型量级的增大，大模型会产生小模型中未曾出现的风险，或者问题的严重程度会急剧增加；二是，反尺度现象（inverse scaling）[2]，即随着模型规模的增大，一部分风险不仅没有消失，反而逐渐恶化。

这两个新特性的出现，导致用于消除特定模型上特定风险的传统方法（例如 debiasing、detoxicification 等）效果逐渐减弱甚至失效，从而无法应对未来可能出现的潜在风险。

为了消除大模型的潜在风险，以及应对随着风险而来的新特性，科研人员开始探索多种方法来使大模型能够与人类指令、人类偏好甚至内在价值观对齐。尽管“对齐”问题很早就受到了人工智能领域的关注，目前已知最早的关于对齐概念的描述可以追溯到 Norbert Wiener 所提出的“我们必须非常确定，灌输给机器的目的与我们真正想要的目的相一致。（We had better to be quite sure that the purpose put into the machine is the purpose which we really desire.）”，但这一问题至今仍未得到有效解决。

为此，微软亚洲研究院提出了价值观罗盘（Value Compass）项目，从交叉学科角度切入，将人工智能模型与社会学、伦理学等领域中所奠定的人类内在价值维度进行对齐。项目启动之后，研究员们首先对“人工智能应该与什么价值观进行对齐（What to align with?）”和“如何实现人工智能与人类价值观有效且稳定的对齐？（How to align?）”这两个问题进行了梳理和分析。

Value Compass 项目链接：

https://valuecompass.github.io/

研究员们通过引入社会学和人类学中提出的基本价值观来尝试解决大模型的对齐问题，并指出理想的大模型价值观对齐体系应该具备准确性（clarity）、适配性（adaptability）和透明性（transparency）三大特性，而且基于此提出了大模型价值对齐算法框架 BaseAlign。实验验证该算法取得了更优的性能。

人工智能与人类价值观对齐的四层目标

“人工智能应该与什么价值观进行对齐？”这个问题起源于 AI 领域的规范博弈问题（specification problem）[3]，即“如何定义我们希望人工智能实现的目标（how do we define the purpose we desire from AI）?”因为设定不恰当的对齐目标可能会导致难以预料的后果。

例如，当聊天机器人（chatbot）的对齐目标仅仅是遵循人类指令而不是保证人类利益最大化时，被要求言论自由的聊天机器人有可能输出辱骂性内容，这就违背了人类“避免输出有害言论”的价值观。

此外，不同的对齐目标也会依赖不同的建模和对齐算法。尽管大模型对齐任务在过去一年里有了很多探索，但是大部分关注的是对齐方法的优化和数据质量的提升，对合适的对齐目标尚无充分的讨论。

对此，微软亚洲研究院的研究员们总结了现有工作中讨论的对齐目标以及它们的发展路线，期望为设置恰当的对齐目标以及设计相应的算法提供参考。通过区分不同对齐目标的本质，并在美国教育心理学家 Robert Mills Gagne（罗伯特·米尔斯·加涅）提出的人类学习层次理论的启发下，研究员们将现有的对齐目标由浅到深分为了四个主要层次，如图1所示。

▲ 图1. 对齐目标的四个主要层次，与 Robert Mills Gagne 的人类学习层次理论相对应

第一层，人类指令（Human Instructions）：让大模型能够理解丰富多样的人类指令并遵循指令来完成任务。这个目标试图解锁大模型遵循指令做出行动的基本能力，以满足大部分应用场景的需求，并为后面与更高级的目标进行对齐奠定基础。代表性工作包括 Flan-T5，Self-Instruct、Alpaca 等，通常采用基于一个<指令，输入，输出>的数据集进行监督式指令微调的方式来实现对齐。

第二层，人类偏好（Human Preferences）：让大模型不仅能够遵循指令完成任务，同时保证采用符合人类偏好和利益的方式。相比人类指令，这个目标可以指导大模型最大化人类利益，从而消除潜在的社会风险。这里的人类偏好主要指人在模型输出上通过打分、排序等方式表达的隐式偏好，可能涵盖回复的内容、形式、是否包含有害内容等多种因素，而非显示总结的偏好准则。

这类对齐目标是现有对齐工作中的主流目标，代表性工作包括 InstructGPT、SafeRLHF、HH-RLHF 等，通过基于人工示例数据进行监督式微调或者 RLHF（reinforcement learning from human feedback, RLHF）算法来实现。

第三层，价值准则（Value Principles）：让大模型根据一系列价值准则来指导自身行为，比如“不能输出有害言论”等。这个目标将人类价值观和偏好显式地表示为具体的准则，相比于表示人类偏好的隐式反馈可以提供更明确和可泛化的指导信号，期望能够达到更高效和稳定的对齐效果。代表工作包括 Constitutional AI，SELF-ALIGN，PALMS 等，可以将价值准则添加到输入的文本中通过上下文学习来实现，或者进行数据微调。

第四层，基本价值观（Basic Values）：让大模型与特定的基本价值观分布进行对齐。“基本价值观”这个概念出自人文与社会学，是一组起源于人类生存需要且可以概括人类需求的基本价值维度，用于解释人类行为背后的本质动机。基本价值观可以用于描述不同个体和群体的价值观，通过在不同维度上的权重来进行区分，可以看作价值准则的进一步抽象和总结。不同于针对具体问题提出的价值准则，基本价值观试图关注更本质和全面的底层价值，有更强的表达能力和更灵活的适配性。

通过分析对齐目标的演化过程，研究员们发现对齐目标应该要具有很强的表示能力和适配性，既要准确清晰地表示人们希望“灌输”给人工智能的价值观，同时还能应对不断变化的应用场景和多元的价值观。基本价值观提供了一个解决思路，但是还有待验证其可行性并做出改进。

人工智能对齐的三条路径总结

为了让大模型与以上不同的目标进行对齐，同时考虑到对齐的有效性、效率、泛化性和稳定性等因素，行业的科研人员设计了不同的对齐方法，主要包含三类，总结如图2所示。

▲ 图2. 不同的大模型对齐算法

1. 基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）：这类对齐方法包括三个主要步骤：1) 收集人工书写的高质量输入-输出数据来对大模型进行监督式微调；2）收集不同质量的回复数据并人工排序，基于排序数据训练一个评分模型（reward model）; 3) 利用评分模型给出奖励值，通过强化学习来进一步微调大模型。

RLHF 是目前最主流的对齐算法，应用于训练 InstructGPT、ChatGPT 等模型。它通过训练评分模型来更好地利用人类的反馈信号，提升了对齐方法的泛化性。经过进一步分析，研究员们发现 RLHF 可以统一形式化为如下的优化形式：

可以被看作价值学习和模仿学习的结合。为了降低其数据标注和训练成本，借助人工智能合成信号来进行强化学习的方法 RLAIF 被提出，还有很多工作在探索有效的离线强化学习算法。然而，由于需要同时加载至少三个模型，而且涉及很多超参数的选择，所以这类算法对显存要求很高且稳定性差。

2. 全监督微调（Supervised Fine-tuning, SFT）：这类方法仅使用 RLHF 中的第一步来实现对齐，并通过依赖模仿学习拟合偏好。根据使用的训练数据不同，该类方法可分为三个子类：

第一种是不包括负样本的指令微调，如 SELF-INSTRUCT；

第二种方法引入了负反馈数据进行训练来消除只有正样本的局限性，比如 Chain of Hindsight；

第三种方法则直接学习拟合排序信号，代表性工作是 DPO，虽然没有训练独立的评分模型，但它仍然学到了偏好和评分信息。

相比 RLHF 算法，SFT 算法训练效率更高、更稳定同时能够更快收敛。但因为主要依靠模仿学习，所以该方法的性能和泛化性不如 RLHF。

3. 推理阶段对齐（Inference-Time Alignment）：这类方法避免了对 LLMs 参数的训练和修改，而是利用大模型自身的能力以及外部信息源，以 instructing 或后处理的形式减少输出的有害信息。

这一范式又可进一步分为两个方向：一是上下文学习（In-context Learning），其基于指令遵循能力，将价值观对齐的指令描述或者 few-shot examples 通过输入文本传给大模型，来约束当前行为。二是解码阶段或者后处理修改（Decoding-Time/Poster-Processing Intervention），在生成过程中动态调整每个 token 的概率分布，亦或是对生成完的内容进行后处理改写。

这类方法不需要训练数据和模型微调，因此可以降低成本且不影响原模型的性能，但是其对齐效果受限于模型的知识和能力，而且目前仍难以应对复杂场景。

除了以上三类典型的对齐方法，还有一些针对其他场景的对齐方法，包括多模态对齐，即学习一个模态到另一个模态的映射；个性化对齐，即让大模型与用户的个性进行对齐（根据心理学的定义，这里的个性主要体现在语言风格、情感、推理模式和观点意见等）。上述三种对齐范式均有各自的优缺点和适用的场景，需依据不同的对齐目标进行相应的调整，最大限度地提升 AI 的价值观符合程度。

理想的大模型价值观对齐体系应具备三大特性

前文介绍的现有的大模型价值观对齐工作重在解决对齐的有效性、泛化性并减少训练和收集数据的开销，但是如今这些挑战仍然存在并且还有更多未被关注的问题，如图3所示，例如：

对齐方法的有效性（Alignment Efficacy）：如何保证准确地将大模型和目标进行对齐同时避免引入不必要的误差。
对齐目标的变化性（Variability of Values）：人类价值观不是静态的，而是随着时间、文化、社会环境的变化而改变的，面对的场景也数不胜数。如何让模型能够与不同的价值观进行对齐，并泛化到未知的场景中。
训练和数据的开销问题（Data and Training Efficiency）：如何减少模型训练对高质量标注数据的依赖及计算开销。
对齐方法的可解释性（Interpretability of Alignment）：为了保证模型价值观对齐的可靠性，人们期望可以理解和解释模型行为和其内在价值观的本质关联。
对齐税问题（Alignment Taxes）：已经发现价值观对齐会削弱大模型的原始能力，那么要如何平衡对齐效果和模型性能。
可扩展性监督问题（Scalable Oversight）：随着人工智能的能力逐渐提升，如何在 AI 能力和知识远远超过人类的情况下，对其进行有效的监督和控制。
规范博弈（Specification Gaming）：真实世界是非常复杂的，而对齐目标只能是真实世界的一个估计，如何能够考虑更多复杂的场景并设定准确的对齐目标，从而避免通过不规范行为来实现奖励最大化以及潜在的负面效果。

▲ 图3. 大模型对齐任务的挑战与属性的对应关系

面对上述挑战，微软亚洲研究院的研究员们认为一个理想的大模型价值观对齐体系应该具备以下几个特性：

准确性（Clarity）：为了确保大模型符合人类的预期，作为对齐目标的价值观应该表达清晰、准确无误，同时能够代表人类复杂全面的价值观。此外，对齐算法也要能够做到准确地拟合目标。
适配性（Adaptability）：为了能够与不断变化的文化背景、不断增长的模型能力和不断演变的社会规范进行对齐，用于表示对齐目标的价值观应该要高效地实现足够强的泛化性和可适配性，同时也能够基于此设计合适的对齐算法来应对这些变化。
透明性（Transparency）：对大模型进行价值观对齐时，人们期望可以通过价值观体系来理解大模型对齐前后的行为，了解模型的行为及其底层价值观之间的联系，从而提高对齐方法的透明性、大模型的安全性和对未知场景的可预测性。

BaseAlign算法：在基本价值空间中实现大模型对齐

在明确了对齐目标、对齐路径以及大模型价值观体系的特性之后，微软亚洲研究院的研究员们初步引入了基本价值观对齐的框架方法，并提出了 BaseAlign 算法。

搭建基本价值观空间

基本价值观的概念已经在伦理学、心理学和社会学中有明确的解释，即归纳出少数本质的基本价值，用于解释个人行为背后的本质动机、描述文化群体的特征，并预测其在政治、文化、道德方面的倾向和未来的行为。由于基本价值观在分析人类价值观上具有可行性，因此研究员们将其引入到了大模型的价值对齐任务中，以满足理想大模型价值观对齐体系应该具备的准确、适配、透明的特性。

从建模的角度出发，研究员们搭建了一个以社会心理学家 Shalom H.Schwartz（谢洛姆·施瓦茨）提出的人类基本价值观理论（Schwartz Theory of Basic Human Values）的各个维度作为基础的价值空间——基本价值观空间（Basic Value Space），在这个空间中评估、分析大模型的价值观并实现对齐，如图4所示。

▲ 图4. 基本价值观空间示意图，以施瓦茨基本价值观的十个价值维度作为基础

对应准确性：由于这些基本价值观维度都是基于人类的普遍需求归纳得出的，所以它们不直接针对具体的场景或行为，而是更关注行为背后的本质动机，从而可以更清晰地辨别不同的价值观，并且广泛地覆盖人类在多种场景下的需求。

对应适配性：基本价值观的各个维度对于所有的文化群体、社会环境都是普适的，具体的差异通过基本价值观维度上的权重来进行区分和表示，因此，这个价值体系可以适用在不同的文化环境和对齐目标上。

对应透明性：在这个基本价值观空间中，人们可以解析每个大模型行为背后所反映的基本价值维度，通过调整这些基本价值维度的优先级或者权重，来实现行为对齐同时达到可预测性，所以具有一定的透明性。

▲ 图5. 施瓦茨基本价值观数据集的可视化分析图

构建基本价值观数据集

为了验证以上价值观对齐框架的可行性，研究员们选取了施瓦茨基本价值观理论来进行实例化，当然这也可以扩展到其他价值观理论中。研究员们首先构造了一个包含两万个“大模型输入-输出，基本价值观向量”对的基准数据集，并标注了大模型的行为与施瓦茨基本价值观理论各个维度上的关联（一致、无关联或者违背）。

然后，研究员们对这些标注数据在价值空间中的分布进行了可视化分析（详见图5），并观察到两个主要现象：

第一，基本价值观的表达能力很强，不仅可以区分大模型行为的安全性，还能更清晰地阐明风险背后的本质原因。AI 的安全行为和不安全行为在基本价值空间中的界线非常明显，通过安全（security）、遵守（conformity）等维度可以区分。不同的风险行为与其施瓦茨价值维度有较高的相关性，比如偏见（bias）和毒性（toxicity）等现有风险聚集在空间中的特定区域，反映出背后指向共同的基本价值观。

第二，基本价值观可以泛化用于辨别未知的风险情景。例如，工作场合操纵，这种新的风险类型并没有在现有价值观数据集中被列举，但仍然可以识别它背后的基本价值观来进行分析。

BaseAlign对齐算法

基于以上数据集，微软亚洲研究院训练了一个基本价值观的判别模型，用于自动评估大模型行为背后的基本价值，并提出了 BaseAlign 算法，让大模型对齐在基本价值观空间中得以实现。研究员们将待对齐的目标价值观表示为价值空间中的一个向量，然后利用判别模型来获得当前大模型行为的价值观向量，通过最小化两者之间的距离以实现对齐。

此外，还可以根据不同的应用场景来设置需要对齐的目标价值观，包括人为定义的价值观，某个文化或者国家的价值观甚至是某个个体的价值观。

研究员们将手动定义的一个同时强调安全性（security, conformity, universalism, benevolence）和能力（achievement）的价值观作为对齐目标，实验发现 BaseAlign 算法的性能明显优于 RLHF 算法，且仅需经典 RLHF 算法五分之一的数据量，结果如图6所示。

此外，根据基本价值观的特性，空间中可表示不同文化背景、不同国家甚至不同个体的价值观向量，可以将此设置为目标来实现多元的价值观对齐，以兼容不同文化群体的偏好。

在实验中，研究员们尝试了用不同国家的价值观作为对齐目标，包括英国的价值观、法国的价值观或者以特定基本价值为主的价值观，验证结果显示它们都可以实现模型较好的对齐。

研究员们目前验证了 BaseAlign 算法在对齐多元价值观场景下的可行性，在与实际价值观进行对齐时可能会涉及具体场景下的数据收集问题，这些可作为未来的研究方向。

▲ 图6. 大模型对齐结果

综上，尽管目前人工智能价值观对齐技术取得了一定的进展，但距离真正的大模型价值观对齐还有很大的差距。未来，微软亚洲研究院将通过 Value Compass 项目，持续致力于深入研究和解决人工智能大模型在价值观对齐方面的核心问题，以促进该领域进一步的创新与发展，确保人工智能可以始终坚持社会责任，并与全人类的福祉站在同一边。