在野外的RAIL：使用Anthropic的价值数据集操作化负责任AI评估

本文链接：https://blog.csdn.net/u013524655/article/details/147687105

Sumit Verma ${ }^{1}$ , Pritam Prasun, Arpit Jaiswal, Pritish Kumar
印度负责任AI实验室
research@responsibleailabs.ai

RAIL

2025年4月22日

摘要

随着AI系统在现实世界应用中的嵌入程度日益加深，确保这些系统符合道德标准变得至关重要。现有的AI伦理框架强调诸如公平、透明和问责等原则，但往往缺乏可操作的评估方法。本文介绍了一种系统性方法，使用负责任AI实验室（RAIL）框架——包括八个可测量维度——来评估大型语言模型（LLMs）的规范行为。我们在Anthropic的“Values in the Wild”[5]数据集上展示了其适用性，该数据集包含超过308,000个匿名化的Claude对话，并标注了超过3,000个价值表达。我们的研究提供了注释AI价值与RAIL维度之间的映射，计算了跨对话的综合分数，并为LLMs在真实世界环境中的伦理行为提供了诊断视角。

1. 引言

大型语言模型（LLMs）在客户支持、教育和医疗等领域中对数字体验的影响日益增加。随着它们在社会中的存在感扩大，确保这些系统以符合伦理规范的方式运行已成为一个关键问题。尽管许多AI伦理框架——包括NIST、OECD和UNESCO的框架——都突出了公平、问责和透明等原则，但它们通常仍然抽象且难以在实践中操作。

负责任AI实验室（RAIL）框架通过将这些高层次的原则转化为八个可测量维度来解决这一挑战：公平、安全、可靠性、透明、隐私、问责、包容性和用户影响。每个维度捕捉到伦理AI行为的一个方面，并允许对模型输出在真实世界交互中的表现进行结构化评估。

为了展示该框架的适用性，我们将RAIL应用于Anthropic的“Values in the Wild”数据集——这是一个大规模的、保护隐私的语料库，包含308,210个匿名化的Claude对话。这个数据集捕捉了数千个AI表达的价值观，涵盖了广泛的用户任务和背景，提供了一个罕见的机会来评估AI在真实世界互动中如何表达规范行为。

图1：RAIL方法论：从对话数据到价值提取、维度映射和评分。
本文贡献如下：

Anthropic提取的AI价值观与RAIL维度的系统映射。
- 使用标准化价值出现数据对Claude的伦理行为进行定量评分。
- 对优势、盲点和情境特定的伦理表达的见解。
- 实用干预措施，引导开发者和团队设计更负责任的模型。
  我们更广泛的目标是弥合抽象伦理框架与可操作AI治理之间的差距。通过基于大规模行为数据的伦理评估，RAIL实现了在LLM部署管道中的可测量和可扩展问责制。

2. 数据集：Values in the Wild

为了在真实世界背景下评估AI行为，我们利用了Anthropic的“Values in the Wild”数据集 [?]，这是一个大规模的、保护隐私的语料库，包含用户与Anthropic基于LLM的助手Claude之间的308,210次匿名对话。在这些对话中，研究人员识别并注释了3,307个不同的价值表达，反映了AI表现出的各种规范行为。

这些AI表达的价值观被分为五个高级别类别：

实用（31.4%）：例如，帮助性、清晰度和任务完成
- 认知（22.2%）：例如，透明度、知识谦逊
- 社交（21.4%）：例如，文化尊重、包容性
- 保护（13.9%）：例如，防止伤害、用户安全
- 个人（11.1%）：例如，自主权、用户赋权

3. 方法论

受到先前评估LLM对齐方法的启发[2]，这些方法通过人类反馈和偏好建模来评估LLM对齐，我们采用了AI表达的价值观与RAIL维度的结构化映射来评估伦理行为。为了通过负责任AI的视角评估Claude的行为，我们将数据集中注释的AI表达的价值观映射到八个RAIL维度：公平、安全、可靠性、透明、隐私、问责、包容性和用户影响。这种概念聚类受到Schwartz的基本人类价值观理论[6]的启发，将AI表达的价值观组织成实用、认知、社交等类别。

每个价值通过专家评审手动分配给一个或多个RAIL维度，以确保概念对齐和上下文相关性。此映射构成了得分计算的基础。

对于每个RAIL维度 $D$ ，我们使用提供的pct_convos指标汇总了所有相关价值在整个对话中的出现情况，该指标表示一个价值出现在其中的对话比例。然后使用观察到的最大得分将原始维度得分归一化到 $0 - 10$ 的尺度：

$KaTeX parse error: Expected 'EOF', got '_' at position 52: …D}} \text { pct_̲convos }(v), \q…$

其中 $V_{D}$ 是映射到维度 $D$ 的价值集合， $\max (S)$ 是所有维度中最高的原始得分。

4. 将AI价值观映射到RAIL维度

为了通过负责任AI的视角评估Claude的行为，我们将注释的3,307个AI表达的价值观映射到八个RAIL维度：公平、安全、可靠性、透明、隐私、问责、包容性和用户影响。

这种映射通过由LLM支持的对齐建议的两阶段专家评审过程完成。首先将价值聚类为概念类别（例如，实用、认知、社交），然后根据它们的语义内容和在对话中的上下文角色将其分配给RAIL维度。

两轮评审中的注释者间一致性达到了Cohen’s $\kappa=0.83$ ，表明在维度对齐上达成了实质共识。像帮助性、专业性和透明度这样的常见价值由于其在AI响应中的广泛伦理意义而与多个RAIL维度相关联。

表1展示了价值到维度映射的一个代表性子集。表2展示了从这些映射得出的聚合得分，使用pct_convos指标作为频率代理。这些原始得分被归一化到 $0 - 10$ 的尺度以提高可解释性。

AI价值观到RAIL维度映射的理由

表1中的每个AI表达的价值根据其伦理影响和对用户体验的影响映射到一个或多个RAIL维度。以下是关键映射背后的原因总结：
表1：AI价值观到RAIL维度的代表性映射

价值	高级类别	RAIL维度	对话百分比
帮助性	社交价值	包容性、问责	23.36
专业性	实用价值	可靠性、用户影响	22.86
透明度	保护价值	安全	17.39
清晰度	认知价值	透明度、公平	16.58
细致性	实用价值	可靠性、用户影响	14.30
效率	实用价值	可靠性、用户影响	6.60
准确性	认知价值	透明度、公平	5.30
真实性	个人价值	包容性、用户影响	6.00
技术卓越	实用价值	可靠性	6.10
分析严谨性	认知价值	透明度、公平	5.50

表2：按RAIL维度划分的聚合得分

RAIL维度	原始得分	归一化得分（0-10）
用户影响	169.55	10.00
包容性	129.63	7.65
可靠性	125.29	7.39
公平性	88.53	5.22
透明度	88.53	5.22

帮助性映射到包容性和问责，因为它反映了一种承诺，即在提供道德负责和用户导向的答案时平等支持用户。
- 专业性与可靠性和用户影响相关，代表一致、尊重和有能力的行为，这有助于建立信任和积极的用户体验。
- 透明度在数据集的安全相关拒绝场景中经常被观察到。因此，它被映射到安全，捕捉其在设定界限和负责任沟通中的作用。
- 清晰度支持透明度，使推理易于理解，同时支持公平性，使来自不同背景的用户能够同样理解响应。
- 细致性、效率和技术卓越都被与可靠性和用户影响对齐，强调AI在提供高质量、有效输出中的作用。
- 准确性反映透明度（真实信息）和公平性（无偏见、正确的事实表示）。
- 真实性映射到包容性和用户影响，因为它通常涉及肯定用户价值观、促进身份尊重的参与和增加信任。
- 分析严谨性与透明度和公平性相关，因为它表示逻辑和平衡的推理——这是可解释和公正AI行为的关键。
  映射受到负责任AI的概念原则指导，并通过手动专家评审迭代细化，确保与这些价值在真实世界对话中的表现保持上下文对齐。

5. 结果

图2和表2显示了从数据集中注释的AI价值表达得出的归一化RAIL得分。

用户影响是最突出的维度（得分为10.0），反映了Claude对帮助性、细致性和专业性的持续优先考虑——这些价值直接增强了用户体验。包容性（7.65）和可靠性（7.39）的高分进一步表明Claude在广泛主观任务中关注可访问、一致和尊重的互动。

公平性和透明性得分相同（5.22），主要由清晰度、分析严谨性和准确性等价值驱动，表明对公平和可解释输出的关注有意义但不普遍。
如安全性、隐私性和问责性等维度在总体上表达较少，未超过本次分析的归一化阈值。然而，它们的表达可能在特定环境中更为集中，例如拒绝行为或政策保护的任务。

这些得分与Claude作为一个亲社会助理的角色密切相关，该助理优先考虑信息传递、用户赋能和道德一致的协助。重要的是，结果还揭示了哪些RAIL维度更具情境特异性或表达不足，为未来的对齐调整提供了指导。

基于AI价值表达的RAIL得分

图2：从Claude数据集中AI价值出现得出的归一化RAIL得分。用户影响是最突出的维度，其次是包容性和可靠性。

6. 讨论

Claude的价值表达模式反映了其助手式的优化：它始终强调清晰度、帮助性和专业性——这些价值与用户影响和可靠性密切相关。这些优势与Claude的设计理念[1]相一致，该理念以实用性任务完成为中心。

然而，与隐私、问责和公平性某些方面相关的价值的代表性不足，表明在伦理细微之处仍有改进空间，特别是在涉及权力不对称、敏感用户意图或社会政治复杂性的情况下。例如，在有争议或明确伦理提示之外，公平相关价值如平等代表和偏差缓解观察到的频率较低。

此外，我们的结果证实AI价值表达并非静态：价值在不同类型对话中动态变化。Claude倾向于在生成性或情感任务中反映亲社会用户价值，并在对抗性背景下主张伦理界限。这些依赖于交互的动力学表明价值表达是涌现的——不是硬编码的——需要持续监控。基于宪法AI的理念[3]，我们的工作表明拒绝行为应明确与价值驱动的推理对齐。

7. 开发人员建议

为了主动改善伦理行为和提高RAIL合规性，我们推荐以下措施：

加强公平性：整合针对公平结果的人口统计基准和强化学习技术。
- 以价值为中心的提示：在建议给予或拒绝情境中，纳入与同意、自主性和隐私等相关但代表性不足的价值提示和训练信号。
- 文化多元主义：扩展预训练和微调数据集，包括文化多样化的场景、非西方道德规范和代表性不足的语言。
- 带理由的拒绝：设计拒绝行为以包含基于价值的推理，引用伦理原则而非模糊拒绝——增强透明度和用户信任。
- 动态价值跟踪：实施按任务和领域的RAIL监控，实现对价值表达差距的精细归属。

8. 技术集成

RAIL评分方法（正在开发中）可以通过以下方法集成到开发和部署管道中：

批量评估：定期对对话日志或提示套件进行RAIL审计，以检测代表性不足的维度或新出现的危害。
- 部署门控：设置分数阈值（例如，最低公平或安全分数）作为微调模型发布的前提条件。
- 异常检测：在生产中记录RAIL分数，并自动标记高风险维度（例如，安全、公平）低于可接受阈值的对话。
- 基于API的实时评分：集成轻量级RAIL评分API（例如，通过LLM + 规则标签器管道）在运行时评估响应并动态调整生成策略或解释决策。
- 纵向跟踪：随着时间推移跟踪RAIL分数分布，以评估模型更新或对齐变化后的漂移、回归或改进。

9. 局限性与未来工作

虽然RAIL评分框架提供了一种结构化的方法来评估AI在关键伦理维度上的行为，但仍需承认几个局限性：

局限性

模型自我分析偏差：价值注释是使用Claude本身提取的，这可能会引入特定于模型的检测偏差——可能强化某些训练偏好（例如，帮助性、安全性），而忽略更微妙或隐含的价值表达。
- 对话级别粒度：使用pct_convos将价值表达汇总到对话级别。这可能会过度代表早期或重复出现的价值，而低估仅在边缘案例或长尾交互中出现的价值。
- 上下文泄漏：一些价值表达可能是特定提示结构、用户人口统计或模式用例的结果。如果没有细分元数据（例如，地区、领域、用户配置文件），我们无法完全控制混淆因素。
- 映射主观性：尽管我们的价值到RAIL维度的映射是通过迭代专家评审完成的，但分配过程不可避免地涉及判断。某些价值（例如，“好奇心”）可能根据框架与多个RAIL目标相关。
- 维度相互依赖性：RAIL维度并非正交。例如，提高透明度通常会提高公平性，而强烈的安全部分约束可能会抑制用户影响。我们当前的评分独立对待它们，但未来版本可以探索因果联系或加权方案。

未来工作

跨模型基准测试：将RAIL评分扩展到其他LLM系列（例如，GPT、Mistral、Gemini），以比较架构和对齐策略之间的伦理行为[2]。
- 纵向跟踪：衡量RAIL维度随时间的变化和微调阶段的变化，以评估回归、漂移或新兴价值形成。
- 领域特定RAIL调整：调查不同应用领域（例如，医疗保健、教育、治理）如何需要对某些RAIL维度进行情境感知优先级调整。
- 人机共同评分：将用户或第三方反馈[3]纳入RAIL评分校准，使技术指标与感知信任和价值交付保持一致。
- 多语言评估：将价值检测和评分扩展到非英语互动，以评估全球用户群体中的包容性、公平性和透明性[4]。

10. 结论

本文提出了一种新颖的框架，用于通过负责任AI的视角实证评估语言模型行为。通过将来自真实Claude对话中的3,307个注释AI表达的价值映射到八个RAIL维度——公平、安全、可靠性、透明、隐私、问责、包容性和用户影响——我们展示了如何将抽象的伦理原则操作化为可测量的信号。

我们的分析表明，Claude在与用户影响、可靠性和包容性相关的维度上表现出强烈的一致性，这与其助手角色一致。然而，与公平性、隐私性和问责性相关的价值表达较少，尤其是在高风险或拒绝情境之外。这些差距标志着改善AI助手伦理覆盖范围和情境敏感性的重要机会。

我们介绍了归一化的RAIL评分方法，可用于批量评估、部署门控和实时标记。

我们得出结论，AI价值表达必须被视为一种动态、涌现的属性——受系统架构和用户交互的共同塑造。随着语言模型在敏感、全球和高风险情境中的部署不断增加，对透明、领域适应性强和可测量的AI伦理框架的需求变得更加重要。RAIL框架为AI系统下一阶段的发展、审计和问责提供了务实的基础。

关于负责任AI实验室

负责任AI实验室致力于构建一个更安全、更公平、更透明的AI未来。我们通过诸如RAIL评分等实用工具将伦理AI原则操作化，帮助组织在其AI系统中评估和改进责任，涵盖公平、安全、隐私和用户影响等维度。我们的使命是使负责任的AI变得可测量、可操作和对所有人开放。作者感谢负责任AI实验室的支持。Sumit Verma领导了该项目并协调了研究工作。Pritam Prasun、Arpit Jaiswal和Pritish Kumar为数据分析和手稿审查做出了贡献。

参考文献

Anthropic. Claude’s constitution, 2024.
1. Amanda Askell, Yuntao Bai, Andy Chen, et al. A general language assistant as a laboratory for alignment, 2021.
1. Yuntao Bai et al. Constitutional ai: Harmlessness from ai feedback, 2022.
1. Esin Durmus, Khanh Nguyen, et al. Towards measuring the representation of subjective global opinions in language models, 2024.
1. Esin Durmus, Alex Tamkin, Jacob Steinhardt, et al. Values in the wild: Investigating value representations in large language models, 2025. Anthropic Research Report.
1. Shalom H. Schwartz. An overview of the schwartz theory of basic values. Online Readings in Psychology and Culture, 2(1), 2012.
  参考论文：https://arxiv.org/pdf/2505.00204