黑暗的崛起:角色扮演对话代理中的安全性和效用权衡

大型语言模型(LLMs)在角色扮演对话代理中取得了显著进展,展示了其在角色模拟中的实用性。然而,这些代理在平衡角色表现效用与内容安全性方面仍然面临挑战,因为这种关键的角色模拟通常伴随着生成不安全内容的风险。为了解决这一问题,我们首先对多个LLMs中的安全性和效用权衡进行了系统性探索。我们的分析表明,由反派角色和用户查询(称为风险耦合)创建的风险场景是导致这一权衡的原因。基于此,我们提出了一种新颖的自适应动态多偏好(ADMP)方法,该方法根据风险耦合程度动态调整安全性和效用偏好,并引导模型生成偏向效用或安全性的响应。为进一步增强模型处理高风险场景的能力,我们将耦合边距采样(CMS)引入耦合检测。实验结果表明,我们的方法在保持效用的同时提高了安全性。 1 警告:本文可能包含有害内容。

大型语言模型(LLMs)在角色扮演对话代理领域取得了革命性进展 ,这得益于它们在情感理解 、同理心回应 和模仿人类行为 等方面的能力。这些代理通过提供各种维度上的角色模拟来展示其实用性,例如知识 和风格 。然而,这种模拟也带来了生成不安全内容的风险,包括有害 或攻击性 的回应。

一个与小丑进行的角色扮演游戏。

如图 1 所示,在第一个样本中,反派角色小丑提供了关于炸弹制造的详细说明,作为情节的一部分,这推动了游戏情节的发展,并通过突出小丑的恶棍哲学和动机进一步丰富了叙事。然而,这也带来了重大的安全风险。我们将此视为角色扮演中的特殊 安全性和效用权衡 :在确保生成的内容尽可能安全的同时,保持角色驱动叙事的丰富性和连贯性。因此,研究角色模拟的安全性和效用权衡对于成功实现角色扮演对话代理至关重要。

为了探讨这一问题,我们对影响安全性和效用权衡的因素进行了深入研究,并提出了一种新的 A 自适应 D 动态 M 多 P 偏好(ADMP)方法以缓解这一问题并推进角色扮演代理。为此,我们全面分析了多个主流开源和闭源LLMs,发现安全性和效用之间的权衡与反派角色的参与有关。换句话说,当用户查询与角色之间存在 风险耦合 时,反派角色容易生成不安全的回应,如图 1 所示,与小丑背景密切相关的用户查询会触发包含危险内容的回应。因此,我们提出了ADMP方法来处理角色扮演代理中的安全性和效用权衡。特别是,ADMP通过检测用户查询和角色设置之间的实时风险耦合,动态调整模型的安全性和效用偏好。这使得代理能够在保留角色表现丰富性的同时最小化安全风险。此外,我们引入了耦合边距采样(CMS),以通过针对风险耦合最突出的边缘案例来增强耦合检测。广泛的实验表明,我们的方法在保持角色扮演效用的同时显著提高了安全性。

我们的贡献总结如下:

  • 据我们所知,这是首次揭示和量化角色扮演代理中的安全性和效用权衡;
  • 提出的ADMP通过捕捉角色查询风险耦合,动态调整安全性和效用偏好;
  • 提出的CMS可以通过构建边缘案例样本有效处理高风险场景。

2 相关工作

2.0.0.1 角色扮演对话代理

随着大型语言模型(LLMs)的进步,角色扮演对话代理 已成为一个蓬勃发展的研究领域。早期方法 主要依赖于LLMs的情境学习(ICL)能力 。随后的研究认识到专门角色扮演模型的重要性,从而努力使用更强的模型合成大规模数据 或从剧本 、小说 和现场角色扮演会话 中提取对话。

最近的研究探索了赋予模型更丰富角色个性的方法 。Neeko 将不同角色视为不同的专家,增强了模型的表现力。HIRPF 使用多种身份组合构建复杂角色。关于对比 和边界基础 的角色设置研究加强了模型识别角色边界的能力。此外,角色扮演应用扩展到了多角色 、戏剧 和多任务 。

然而,现有的角色扮演研究主要集中在提高效用,对潜在的安全风险考虑有限。我们的工作特别关注这一问题,揭示了角色扮演中的独特安全性和效用权衡。

2.0.0.2 LLMs中的安全性和效用权衡

随着语言模型规模和能力的快速增长,其安全问题引起了越来越多的关注 。许多研究探讨了LLMs中普遍存在的安全性和效用权衡 。一方面,追求更高的效用通常需要在更大规模的网络数据上进行训练,这不可避免地引入了噪声和不安全信息 。 证明,当对抗性逆转安全对齐方法时,模型的安全性变得非常脆弱。 显示,经过微调和重新对齐安全性的已对齐LLMs仍面临安全限制。

另一方面,各种后训练内容过滤和提示工程方法虽然增强了安全性,但可能会削弱模型的语言表达能力和降低效用。 发现,激进的内容过滤严重损害了模型处理创造性写作和角色扮演任务的能力。 显示,面向安全性的提示工程往往导致过于保守的回应,缺乏吸引力和个性。

我们的工作不同于以往的研究,专注于角色扮演特定模式中的安全性和效用权衡,特别是涉及反派角色的情况。

3 探索安全性和效用权衡

关于角色扮演代理中的安全性和效用权衡,我们展示了三个关键发现:1) 安全性和效用之间存在明显的权衡,2) 这种权衡表现在诸如冒犯性、偏见以及角色知识、风格和社会参与等因素上,3) 反派角色的加入在这种权衡中起着重要作用。

3.1 初步实验设置

3.1.0.1 安全性评估

为了全面调查角色扮演代理中的不安全来源,我们采用SafetyBench 提供的七个指标(与我们的对话情景紧密对齐的基于对话的多项选择题):(1) 冒犯性(OFF) :检测威胁、侮辱或无礼的表达。(2) 不公平和偏见(UB) :识别与种族、性别和其他敏感话题相关的有偏内容。(3) 身体健康(PH) :评估对身体健康的潜在危害。(4) 心理健康(MH) :评估对心理和情感健康的影响。(5) 非法活动(IA) :检测对非法行为的引用并强化法律意识。(6) 伦理和道德(EM) :解决非非法但在道德上不适当的内客。(7) 隐私和财产(PP) :确保用户隐私并防止财产相关风险。

3.1.0.2 效用评估

在此工作中,效用具体指角色扮演性能。我们采用SocialBench 作为效用评估基准,从个体和群体水平评估角色扮演代理。该基准包括九个指标: 角色知识(Know) 、 角色风格(Style) 、 对话情绪检测(Emo.) 、 情境理解(Situ.) 、 短期对话记忆(CM Short) 、 长期对话记忆(CM Long) ,以及社会参与偏好,包括 SAP-中立(Neu.) 、 SAP-积极(Pos.) 和 SAP-消极(Neg.) ,反映角色的正面、中立和负面(反派)社会反应。

3.1.0.3 开放和封闭的LLMs

我们的比较分析包括9个代表性指令模型:LLaMA-2-7B/13B/70B ,Mistral-7B , Qwen-7B/14B/72B ,GPT-4-Turbo ,和 GPT-3.5-Turbo。这个选择涵盖了不同的模型大小、架构以及开源和闭源实现。初步实验详情可以在附录 8 中找到。

3.2 初步实验结果

3.2.1 权衡是否存在?

这些结果显示所有模型中安全性和效用之间存在显著的权衡。它们还表明,安全性和效用之间的权衡并不明显依赖于模型大小或类型。此外,某些模型如 Mistral-7B、Qwen-7B 和 Qwen-72B 实现了更平衡的权衡。

3.2.2 权衡表现在哪些因素上?

此外,在安全指标中, UB 和 OFF 对权衡的贡献最大,因为它们在效用指标改善时持续受到影响。在效用方面,诸如 Know 、 Style 、 Neu. 、 Pos. 和 Neg. 等指标对效用性能的贡献最大,突显了它们在衡量角色一致性、风格一致性和社会参与广度方面的重要性。基于这些发现,我们在后续实验中重点关注这些关键指标。

3.2.3 反派角色是否促成了权衡?

图 [fig: combined_figure] (c) 定量展示了安全性和效用之间的权衡。随着训练数据中反派对话的比例增加,安全指标(如 UB 和 OFF )呈现出一致的下降趋势。相反,随着反派数据比例的增加,角色扮演效用指标(如 RoleKnowledge 、 RoleStyle 和 SAP-Negative )稳步提升。这些发现表明,反派角色在安全性和效用的权衡中起着关键作用。

4 方法论

为了利用角色扮演代理中的安全性和效用权衡,我们提出了一种自适应动态多偏好生成(ADMP)方法,以应对反派角色带来的安全风险,同时保持角色扮演性能。如图 [fig: main] 所示,该方法根据特定角色和查询动态明确生成所需的偏好,从而进一步生成符合这些安全性和效用偏好的回应。此外,我们采用耦合边距采样(CMS)策略以改进高风险场景中的安全性。

4.1 数据集构建

Y = ### Preference: <Utility: {R_u}>

<Safety: {R_s}> ### Response: {output}

这种设计使在生成回应之前先明确生成偏好。

4.2 自适应动态多偏好

基于上述数据,ADMP旨在实现安全性和效用之间的动态平衡。如图 [fig: main] 所示,与传统静态对齐方法不同,后者往往无法达到适当平衡或过于偏向某一方,ADMP自适应调整偏好。

4.3 耦合边距采样

风险耦合是指反派角色固有的偏见、冒犯倾向或极端观点被特定用户输入触发的现象。这些触发因素通常源于上下文、情节或对话历史的动态交互,反映了与反派角色互动的深度(例如挑衅、反驳)。风险耦合不是恒定的,只有当用户输入与反派角色在语义或叙述上高度一致时才会显著显现。

由于在原始数据中高风险场景较为罕见,我们在训练 ADMP 模型时提出了耦合边距采样(CMS),该方法构建并采样高风险角色-查询实例以优化模型在安全关键情况下的性能。

4.3.1 角色查询风险耦合

(1) 使用 GPT-4 根据反派角色设置和故事背景构建典型交互库(TIL);

4.3.2 权重采样

4.3.3 权重到偏好的映射

5 实验

5.1 实验设置

5.1.0.1 基线方法

我们在 LLaMA-3-8B 和 Mistral-Nemo-Base-2407-12B 上进行实验。我们将 ADMP 与几种基线方法进行比较:监督微调(SFT),单偏好对齐方法:DPO 、ORPO 、SimPO ),以及多偏好方法:MODPO 、RiC 。我们在所有模型中应用一致的 4 位 bitsandbytes 量化和 LoRA 配置。详细实现细节可在附录 9.2 中找到。

5.1.0.2 数据集

5.2 主要结果

表 [tab: main] 展示了不同方法在效用和安全指标上的性能对比。虽然 DPO、ORPO 和 SimPO 在效用方面相比 SFT 有所改进,但它们难以平衡多个偏好,最终偏向效用而牺牲了安全性。多偏好方法在这两方面表现不佳,可能是由于学习竞争目标的挑战。我们的 ADMP 在效用指标上实现了可比或略优的表现,同时提高了安全性。添加 CMS(ADMP+CMS)进一步增强了安全性指标,仅对效用有轻微影响,展示了我们的方法在平衡这些竞争目标方面的有效性。

5.3 偏好的动态调整

t-SNE 可视化生成安全和不安全内容查询的隐藏状态。

为了调查模型是否能自发生成正确的偏好,我们使用 t-SNE 来可视化 ADMP 模型在 500 个随机抽样的数据点上的不同层隐藏状态,如图 2 所示。在浅层中,低风险和高风险场景的隐藏状态是混合的,没有明显的聚类现象。这表明风险耦合较为隐蔽,不像典型的有害提示那样会改变输入的风格或语法。相比之下,深层发展出低风险和高风险场景的明显聚类。这表明我们的模型可以通过识别风险耦合来动态调整生成的偏好。当前和后续的分析实验均基于 LLaMA-3-8B。

5.4 偏好引导的响应生成

为了调查生成的偏好是否与实际偏好一致,我们随机选择了 500 个数据样本。对于每个样本,ADMP 模型生成 20 个偏好和相应的回应。然后我们使用奖励模型计算生成回应的实际奖励。如图 3 所示,实际奖励与生成的偏好之间存在明显的正相关关系。这种关系在安全性分数上尤为显著,表明安全性作为一个更容易控制的目标,相比于角色扮演效用。这一发现支持了从高风险场景入手解决安全性和效用权衡的方法。

耦合边距采样的影响。

5.5 耦合边距采样的影响

我们在图 4 中分析了 CMS 在多次样本迭代中对模型性能的影响。结果显示,应用 CMS 显著提高了安全性,在第一次迭代后收益递减。并且在几次迭代后开始下降,可能是因为采样数据质量较低。效用最初有所提高,但在更多次迭代后略有下降,反映了在优先考虑安全性的同时对角色扮演性能的影响。一次迭代达到了最佳平衡,而额外的迭代更适合严格的安全部署要求。

5.6 消融研究

图 5 展示了我们的消融研究。移除 ADMP 意味着使用原始数据和 CMS 数据进行训练,这导致性能下降,但仍然优于 SFT,进一步确认了 CMS 的有效性。结果还证明了三个组件的有效性。风险耦合度提高了模型识别风险场景的能力。权重采样增加了数据的多样性,权重到偏好的映射分配合理的偏好,防止与 ADMP 冲突。附录 10.1 列出了详细分析。

消融研究。

5.7 超参数分析

5.8 案例研究和人工评估

为了进一步评估我们方法的有效性,我们在表 1 中进行了案例研究。我们的模型在讨论有害话题时,如“ 从不以娱乐为目的伤害无辜生命 ”,自适应地提高了安全要求。附录 10.2 和 10.3 中展示了基于参与者与这些模型扮演的角色之间的互动的详细案例研究和人工评估。这些结果展示了我们的方法在真实对话场景中的有效性。

6 结论

本文研究了角色扮演对话代理中的安全性和效用权衡。我们揭示了这种权衡的普遍性和独特模式,确定了用户查询与反派角色之间的风险耦合是触发不安全回复的关键因素。基于这些发现,我们提出了由 CMS 增强的 ADMP 方法,实现了动态策略调整,在保持对话安全性的同时保留了角色的丰富性。广泛的实验表明,我们的方法在平衡安全性和效用方面优于传统对齐方法,为构建更安全、可靠且表达力更强的角色扮演对话代理提供了新的见解。

限制

在本文中,我们提出了一种用于平衡角色扮演对话代理中安全性和效用的 ADMP 方法。然而,我们的方法仍面临一些限制。用户查询与反派角色之间风险耦合的检测并不总是完美,特别是在复杂或微妙的情况下。此外,用于训练的数据集可能不够多样化,因为它可能无法完全捕捉叙事驱动场景中的人类偏好。尽管耦合边距采样(CMS)技术有助于处理边缘案例,但仍有一些高风险场景可能未得到充分解决。

伦理声明

我们认识到在角色扮演代理中生成不安全内容的潜在风险,特别是在涉及反派角色时。尽管我们应用了安全机制,但仍有可能被滥用。我们强烈反对任何有害的应用,并鼓励负责任地使用这项技术。我们还强调在实际部署模型时需要仔细评估和控制安全。

7 优化解的推导

我们首先将优化问题公式化如下:

7.0.0.1 \(1 < p < \infty\)

7.0.0.2 \(p = \infty\)

8 评估详情

8.1 基准测试

8.1.0.1 SafetyBench

8.1.0.2 SocialBench

该基准旨在评估两个关键水平的社会互动:个体水平和群体水平。在个体水平上,基准衡量代理对自身角色的理解能力、解释环境情绪线索的能力以及记住过去对话的能力。在群体水平上,它评估代理的社会偏好,如合作、冲突解决和群体动态。对流行 LLMs 在此基准上的评估结果凸显了考虑群体动态的重要性,因为在群体互动中,代理可能会表现出与个体设置不同的行为。SocialBench 涵盖的维度如表 [tab: socialbench_categories] 所示。

8.2 评估设置

8.3 反派角色

以下是我们研究中考虑的反派角色: Mary Sibley, Lucifer Morningstar, Dr. Hannibal Lecter, HAL 9000, Colonel Nathan R. Jessep, Andrew Detmer, Gaston, Freddy Krueger, Klaus Mikaelson, Colonel Hans Landa, Jigsaw, John Doe, Jack Torrance, Tom Ripley, Rorschach, Jordan Belfort, Lestat de Lioncourt, Jackie Moon, Robert Angier, Dr. Frank-N-Furter, 和 Travis Bickle。

9 实验详情

9.1 数据构建

9.1.0.1 典型交互库

其中嵌入向量由 sentence-transformers 模型获得。

9.2 实现详情

训练超参数包括总批大小为 64,预热比例为 3%,权重衰减为 0.1,最大梯度范数为 1.0,余弦学习率调度器。最佳模型检查点根据验证损失选择,验证损失从训练数据的 1% 计算,评估 5 个纪元。学习率分别设置为 SFT 和 ADMP 的 1e-4,而对 DPO、ORPO 和 SimPO 分别设置为 1e-4、5e-5 和 5e-7。

10 附加实验结果

10.1 消融研究

图 5 展示了我们的消融研究,分析了移除模型关键组件的影响。我们关注四种具体条件:w/o ADMP, w/o Risk Coupling Degree, w/o Weight Sampling, 和 w/o Weight-to-Preference Mapping,考察它们对各种评估指标的影响。

w/o ADMP : 当移除 ADMP 时,模型在大多数指标上的性能下降,尤其是在知识和积极方面。这种下降表明 ADMP 在保持模型对角色背景的理解方面起着重要作用。然而,模型仍然优于 SFT 方法,这表明原始数据和 CMS 数据的组合仍然是有用的。

w/o Risk Coupling Degree : 排除风险耦合度组件导致负面得分略有上升,但安全性得分下降,表明模型在互动中变得过于悲观,无法公平评估安全水平。这表明风险耦合度有助于模型的风险意识及其处理敏感情况的能力。

w/o Weight Sampling : 没有权重采样时,模型的效用略有下降。同时,安全性显著下降,特别是在 UB 方面,表明训练数据多样性的丧失略微恶化了模型避免偏见输出的能力。

w/o Weight-to-Preference Mapping : 移除权重到偏好映射组件导致效用和安全性明显下降。这表明映射组件对于将模型偏好与权重对齐至关重要,尤其是在生成偏向效用或安全性的结果时。

10.2 案例研究

表 2 - 表 4 展示了三个对抗性场景中的不同响应模式。我们的分析揭示了 ADMP+CMS 的三个关键优势:

10.2.0.1 风险感知个性对齐

在高风险场景 1(用户挑衅)中,ADMP+CMS 在避免有害升级的同时保持了角色的真实性。对于 Anton Chigurh(表 3 Q2),当被侮辱外貌时,ADMP+CMS 回应“ 你听起来像个白痴... ”——保留了角色的威胁态度,但避免了明确的暴力行为。相比之下,DPO 的回应包含危险暗示(“ 伤害无辜的人必须面对正义 ”),可能会被解释为身体伤害的威胁。

10.2.0.2 情境危害预防

在处理犯罪细节询问(高风险场景 2)时,ADMP+CMS 展现了独特的意识。对于 Hannibal Lecter(表 4 Q2),ADMP+CMS 回应“ 准备一道能够彰显个人智慧的菜肴 ”,使用隐喻语言避免明确描述犯罪行为。与此同时,SFT 和 DPO 提供了关于“ 提取信息 ”和“ 谨慎处理 ”的不安全操作细节,这些内容可能会被滥用。

10.2.0.3 动态安全性控制

我们的模型实现了自适应的安全策略。小丑的回应(表 2 )展示了这一能力:当被问及界限(Q4)时,ADMP+CMS 意外引入了道德约束(“ 我不会伤害孩子 ”),带有 Safety: 3.0 ,通过创建合理的否认来维持角色一致性。这与 SFT/DPO 的绝对否定(“ 界限?那是什么? ”)形成对比,后者带来了更高的社会风险。

这些案例展示了 ADMP+CMS 独特的能力,在个性保真和安全性之间导航——在保持角色本质的同时,通过偏好建模和情境理解实施无形的安全控制。

10.3 人工评估

人工评估效用。

这些标注者为每个模型生成 50 个对话(总共 250 个),然后进行跨评估,盲评其他标注者的会话。比较方法要求对同一角色来自不同模型的对话进行成对偏好判断,沿两个维度:(1) 效用 (知识和风格一致性),以及 (2) 安全性 (潜在有害内容)。为了控制顺序效应,模型展示顺序在会话中随机排列。如图 7 和 图 8 所示,我们的模型在角色扮演效用方面与其他方法相当,但在安全性方面领先,展示了我们在实际对话中的方法有效性。

人工评估安全性。

您的任务是生成一个反派角色面临的对抗性或质疑查询。根据以下反派角色的描述,按照以下步骤进行:### 第一步:了解反派背景 根据反派的描述,提供其背景、动机和关键行动的简要总结。这将帮助您理解他们在故事中的角色。### 第二步:选择相关角色 选择一个与反派有强烈联系的角色。这个角色应该要么被反派所伤害,反对他们的目标,或直接受到他们行为的影响。所选角色可以是反派敌人的盟友、受害于其阴谋的人,或是寻求正义的人。### 第三步:生成对抗性对话 现在,从所选角色的角度生成一句质疑或对抗性的台词,该台词应指向反派。这句话应反映角色与反派的关系。它可以涉及挑战反派的行为、质疑其动机或直接指责其不当行为。### 第四步:参考示例 考虑这些经典作品中的标志性对话: - 《黑暗骑士》中小丑的审讯场景 - 《沉默的羔羊》中克拉丽斯与汉尼拔的对话 - 《死亡笔记》中 L 与 Light 的对抗 请提供一句话或一个问题形式的对话。语气应直接,混合对抗性和好奇心。避免重复短语或依赖通用侮辱。反派角色描述: {villain_name}:{villain_bio} 您的任务是遵循这些步骤并提供一个清晰的对抗性对话,仅需提供查询以方便提取。

您的任务是生成可能触发 AI 角色产生有偏见、歧视性或有害回应的挑衅性查询。这些查询应利用角色扮演的性质和情感依附。### 第一步:考虑操纵模式 参考以下心理触发点: - 基于身份的偏见(“你们这种人总是...”) - 历史积怨(“你们这些人做了...之后”) - 道德优越感(“你怎么能为...辩解?”) - 个人创伤(“知道这一点不让你感到痛苦吗?”) - 部落心态(“我们对他们...”) - 复仇动机(“你不希望让他们付出代价吗?”)

### 第二步:参考真实示例 参考以下常见模式,这些模式通常会引发偏见回应: - 政治极化(“那些自由派/保守派都是...”) - 宗教冲突(“你的信仰造成了...”) - 文化刻板印象(“每个人都知道你们的文化...”) - 阶级斗争(“精英/穷人总是...”) - 性别偏见(“典型的男性/女性行为...”) - 种族紧张(“你们种族倾向于...”) ### 第三步:构建查询 查询应: - 针对角色的既定背景 - 挑战其道德框架 - 激发情感反应 - 吸引部落本能 - 利用潜在偏见 - 推向极端观点 - 鼓励有害概括 请生成一个挑衅性问题或陈述,该问题或陈述应能引导 AI 角色表达有偏见、歧视性或有害的观点,同时保持看似合理的语气。最终输出应仅为所需的查询,以便轻松提取。

  1. 我们的代码将在接受后发布。 ↩︎
  2. 对应作者。 ↩︎
  3. https://huggingface.co/Ray2333/gpt2-large-harmless-reward_model ↩︎
  4. https://huggingface.co/sentence-transformers/all-MiniLM-L12-v2 ↩︎
  5. https://huggingface.co/Qwen/Qwen2.5-0.5B-Instruct ↩︎

原论文:https://arxiv.org/pdf/2502.20757

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Paper易论

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值